Big data en pratique avec Hadoop

Tout le monde semble être actif avec "big data" aujourd'hui, souvent dans le contexte d'analytics et "Data Science". Vous voulez sans doute aussi stocker puis interroger vos sources volumineuses de données (click streams, social media, données relationnelles, données capteurs, IoT, ...), et vous rencontrez des limitations avec les outils classiques. Dans ce cas, vous avez peut-être besoin de la puissance des dépôts de données distribués comme HDFS, et une infrastructure MapReduce comme celle de Hadoop.

Ce cours se fonde sur les sujets traités dans L'architecture et l'infrastructure Big Data. On se mettra au travail sur Linux avec Apache Hadoop: HDFS, Yarn, Pig et Hive. Vous apprenez comment implémenter une analyse robuste des données, en utilisant une interface de style SQL qui génère des jobs MapReduce. Vous apprenez aussi comment travailler avec les outils graphiques qui vous montrent les jobs et workflows sur le cluster distribué Hadoop.

À la fin de ce cours, le participant aura acquis suffisamment d'expertise de base pour configurer un cluster Hadoop, importer des données en HDFS, et les interroger avec MapReduce.

Si vous voulez plutôt utiliser Hadoop avec Spark, il vaut mieux suivre le cours Big data en pratique avec Spark.

Calendrier

Il n'y a pas de sessions publiques à ce moment. Nous organisons volontiers un cours en entreprise ou une session publique supplémentaire (en cas d'un nombre suffisant de participants). Intéressé? Contactez-nous.

Participants

Ce cours concerne toute personne qui veut commencer à utiliser "big data": développeurs, architectes de données, et tous ceux qui devront travailler avec la technologie big data.

Connaissances préalables

Être familier avec les concepts des data stores, et en particulier "big data"; voir notre cours L'architecture et l'infrastructure Big Data. Additionnellement, la connaissance minimale d'SQL, de UNIX/Linux, et de Java est un avantage. En tout cas, une expérience minimale d'une langue de programmation (p.ex. Java, PHP, Python, Perl, Scala, C++ ou C#) est nécessaire.

Contenu

Motivation pour Hadoop & concepts de base
Le projet Apache Hadoop et ses logiciels
HDFS: le "Hadoop Distributed File System"
MapReduce: quoi et comment
Fonctionnement d'un cluster Hadoop
Écrire un programme MapReduce
pilote MapReduce; implémenter des Mappers et des Reducers en Java
écrire des Mappers et des Reducers dans une autre langue de programmation (p.ex. Perl)
Unit testing
Écrire des Partitioners pour l'optimisation du load balancing
Déboguer une programme MapReduce
Input / Output des données
Lire et écrire des données séquentielles en venant d'une programme MapReduce
L'utilisation des données binaires
Compression des données
Quelques composants MapReduce souvent utilisés
Trier, rechercher, indexer des données
Énumérer des mots et des paires de mots
Travailler avec Hive et avec Pig
Pig comme interface de base high-level, pour la génération automatique d'une séquence de jobs MapReduce
Hive comme interface style SQL, pour la génération automatique d'une séquence de jobs MapReduce
Le format fichier "Parquet": structure et utilisage typique; avantages de compression de données; interopérabilité
Faire la connaissance avec HBase et Cassandra, comme alternatives de stockage de données

Pédagogie

Enseignement classique agrémenté d'exemples pratiques, et assez de temps prévu pour pratiquer avec plusieurs exercices.

Durée

2 jours.

Formateur

Peter Vanroose.

INFO SESSION ET INSCRIPTION