Big data en pratique avec Hadoop

Mettez-vous au travail sur Linux avec Apache Hadoop (HDFS, Yarn, Pig et Hive) dans ce cours ABIS de deux journées.

Tout le monde semble être actif avec "big data" aujourd'hui, souvent dans le contexte d'analytics et "Data Science". Vous voulez sans doute aussi stocker puis interroger vos sources volumineuses de données (click streams, social media, données relationnelles, données capteurs, IoT, ...), et vous rencontrez des limitations avec les outils classiques. Dans ce cas, vous avez peut-être besoin de la puissance des dépôts de données distribués comme HDFS, et une infrastructure MapReduce comme celle de Hadoop.

Ce cours se fonde sur les sujets traités dans L'architecture et l'infrastructure Big Data. On se mettra au travail sur Linux avec Apache Hadoop: HDFS, Yarn, Pig et Hive.

Vous apprenez

comment implémenter une analyse robuste des données, en utilisant une interface de style SQL qui génère des jobs MapReduce;
comment travailler avec les outils graphiques qui vous montrent les jobs et workflows sur le cluster distribué Hadoop.

À la fin de ce cours, le participant aura acquis suffisamment d'expertise de base pour configurer un cluster Hadoop, importer des données en HDFS, et les interroger avec MapReduce.

Si vous voulez plutôt utiliser Hadoop avec Spark, il vaut mieux suivre le cours Big data en pratique avec Spark.

Planifier une session?

Formation interactive en temps réel – disponible en personne ou en ligne ou dans un format hybride. La formation peut être effectuée en français, en anglais ou en néerlandais.

DEMANDER FORMATION EN ENTREPRISE

Calendrier publique des formations

Il n'y a pas de sessions publiques à ce moment. Nous organisons volontiers un cours en entreprise ou une session publique supplémentaire (en cas d'un nombre suffisant de participants). Intéressé? Contactez-nous.

Participants

Ce cours concerne toute personne qui veut commencer à utiliser "big data": développeurs, architectes de données, et tous ceux qui devront travailler avec la technologie big data.

Connaissances préalables

Être familier avec les concepts des data stores, et en particulier "big data"; voir notre cours L'architecture et l'infrastructure Big Data. Additionnellement, la connaissance minimale d'SQL, de Linux, et de Java est un avantage. En tout cas, une expérience minimale d'une langue de programmation (p.ex. Java, PHP, Python, Perl, Scala, C++ ou C#) est nécessaire.

Contenu

Motivation pour Hadoop & concepts de base
- Le projet Apache Hadoop et ses logiciels
- HDFS: le "Hadoop Distributed File System"
- MapReduce: quoi et comment
- Fonctionnement d'un cluster Hadoop
Écrire un programme MapReduce
- pilote MapReduce; implémenter des Mappers et des Reducers en Java
- écrire des Mappers et des Reducers dans une autre langue de programmation (p.ex. Perl)
- Unit testing
- Écrire des Partitioners pour l'optimisation du load balancing
- Déboguer une programme MapReduce
Input / Output des données
- Lire et écrire des données séquentielles en venant d'une programme MapReduce
- L'utilisation des données binaires
- Compression des données
Quelques composants MapReduce souvent utilisés
- Trier, rechercher, indexer des données
- Énumérer des mots et des paires de mots
Travailler avec Hive et avec Pig
- Pig comme interface de base high-level, pour la génération automatique d'une séquence de jobs MapReduce
- Hive comme interface style SQL, pour la génération automatique d'une séquence de jobs MapReduce
Le format fichier "Parquet": structure et utilisation typique; avantages de compression de données; interopérabilité
Faire la connaissance avec HBase et Cassandra, comme alternatives de stockage de données

Pédagogie

Enseignement classique agrémenté d'exemples pratiques, et assez de temps prévu pour pratiquer avec plusieurs exercices.

Certificat

À la fin du cours, le participant reçoit un «Certificat de réussite».

Durée

2 jours.

Formateur

Peter Vanroose (ABIS).

INFO SESSION ET INSCRIPTION