Big data en pratique avec Hadoop

Tout le monde semble être actif avec "big data" aujourd'hui, souvent dans le contexte d'analytics et "Data Science". Vous voulez sans doute aussi stocker puis interroger vos sources volumineuses de données (click streams, social media, données relationnelles, données capteurs, IoT, ...), et vous rencontrez des limitations avec les outils classiques. Dans ce cas, vous avez peut-être besoin de la puissance des dépôts de données distribués comme HDFS, et une infrastructure MapReduce comme celle de Hadoop.

Ce cours se fonde sur les sujets traités dans L'architecture et l'infrastructure Big Data. On se mettra au travail sur Linux avec Apache Hadoop: HDFS, Yarn, Pig et Hive. Vous apprenez comment implémenter une analyse robuste des données, en utilisant une interface de style SQL qui génère des jobs MapReduce. Vous apprenez aussi comment travailler avec les outils graphiques qui vous montrent les jobs et workflows sur le cluster distribué Hadoop.

À la fin de ce cours, le participant aura acquis suffisamment d'expertise de base pour configurer un cluster Hadoop, importer des données en HDFS, et les interroger avec MapReduce.

Si vous voulez plutôt utiliser Hadoop avec Spark, il vaut mieux suivre le cours Big data en pratique avec Spark.

Calendrier

Il n'y a pas de sessions publiques à ce moment. Nous organisons volontiers un cours en entreprise ou une session publique supplémentaire (en cas d'un nombre suffisant de participants). Intéressé? Contactez-nous.

Participants

Ce cours concerne toute personne qui veut commencer à utiliser "big data": développeurs, architectes de données, et tous ceux qui devront travailler avec la technologie big data.

Connaissances préalables

Être familier avec les concepts des data stores, et en particulier "big data"; voir notre cours L'architecture et l'infrastructure Big Data. Additionnellement, la connaissance minimale d'SQL, de UNIX/Linux, et de Java est un avantage. En tout cas, une expérience minimale d'une langue de programmation (p.ex. Java, PHP, Python, Perl, Scala, C++ ou C#) est nécessaire.

Contenu

  • Motivation pour Hadoop & concepts de base
  • Le projet Apache Hadoop et ses logiciels
  • HDFS: le "Hadoop Distributed File System"
  • MapReduce: quoi et comment
  • Fonctionnement d'un cluster Hadoop
  • Écrire un programme MapReduce
  • pilote MapReduce; implémenter des Mappers et des Reducers en Java
  • écrire des Mappers et des Reducers dans une autre langue de programmation (p.ex. Perl)
  • Unit testing
  • Écrire des Partitioners pour l'optimisation du load balancing
  • Déboguer une programme MapReduce
  • Input / Output des données
  • Lire et écrire des données séquentielles en venant d'une programme MapReduce
  • L'utilisation des données binaires
  • Compression des données
  • Quelques composants MapReduce souvent utilisés
  • Trier, rechercher, indexer des données
  • Énumérer des mots et des paires de mots
  • Travailler avec Hive et avec Pig
  • Pig comme interface de base high-level, pour la génération automatique d'une séquence de jobs MapReduce
  • Hive comme interface style SQL, pour la génération automatique d'une séquence de jobs MapReduce
  • Le format fichier "Parquet": structure et utilisage typique; avantages de compression de données; interopérabilité
  • Faire la connaissance avec HBase et Cassandra, comme alternatives de stockage de données

Pédagogie

Enseignement classique agrémenté d'exemples pratiques, et assez de temps prévu pour pratiquer avec plusieurs exercices.

Durée

2 jours.

Formateur

Peter Vanroose.


INFO SESSION ET INSCRIPTION