Un cluster Apache Kafka est déjà, à lui seul, une puissante infrastructure pour faire de l’event streaming… Et si nous pouvions, d’un coup de baguette magique, lui permettre de consommer des informations issues de systèmes de données plus traditionnels, tels que les bases de données ? C’est là qu’intervient Kafka Connect, un autre composant de l’écosystème du projet.
Dans un précédent article [1], nous avons présenté le projet Apache Kafka dans ses grandes lignes. Nous revenons aujourd’hui sur ce sujet, en nous intéressant, en particulier, à l’un de ses composants, que nous n’avions pas abordé dans notre introduction, Kafka Connect.
1. Concept et architecture
En quelques mots, Kafka Connect est un cadre d’exécution, un framework, qui permet de publier des données au sein d’un cluster Kafka ou d’adapter celles produites par celui-ci au format d’autres logiciels, tel que celui utilisé par une base de données relationnelle ou un système de fichiers distribués (HDFS). En essence, ce composant permet, d’où son nom, de connecter le cluster Kafka avec un autre système.
Avant d’évoquer le fonctionnement de Kafka Connect, nous allons d’abord expliciter son jargon et ses concepts clés. La première notion à bien appréhender est celle de connecteur (connectors), qui est au cœur du composant. En essence, il...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première