Big data in de praktijk met Hadoop

Iedereen is tegenwoordig aan de slag met "big data", voornamelijk in de context van analytics en "Data Science". Ook u wilt ongetwijfeld zelf uw diverse databronnen (click streams, sociale media, relationele data, sensor-data, IoT, ...) opslaan en gericht kunnen ondervragen, en u merkt dat de klassieke data-tools hierbij tekort schieten. Dan hebt u wellicht behoefte aan distributed data stores zoals HDFS en een MapReduce-infrastructuur zoals die van Hadoop.

Deze cursus bouwt verder op de concepten die in Big data architectuur en infrastructuur aangebracht worden. We gaan tijdens de training zelf aan de slag met Apache Hadoop: HDFS, Yarn, Pig en Hive. U leert hoe u robuuste gedistribueerde data-processing implementeert met een SQL-achtige interface die MapReduce-jobs genereert. U leert ook werken met de grafische tools die de jobs en de workflows over de gedistribueerde Hadoop-cluster opvolgt.

Na afloop van deze cursus hebt u voldoende basis-expertise opgebouwd om zelfstandig een Hadoop-cluster op te zetten, data te importeren in HDFS, en zinvol te ondervragen met MapReduce.

Wanneer u Hadoop wil gebruiken met Spark, verwijzen we u naar de cursus Big data in de praktijk met Spark.

Kalender

datumduurtaalplaatsprijs 
19 mrt2Leuven 1050 EUR (excl. BTW)
02 jul2Woerden 1050 EUR (BTW-vrij)
SESSIE-INFO EN INSCHRIJVEN

Doelgroep

Iedereen die praktisch aan de slag wil met "big data": ontwikkelaars, data-architecten, en iedereen die met big data technologie moet kunnen werken.

Voorkennis

Vertrouwdheid met de concepten van data stores en i.h.b. "big data" is noodzakelijk; zie hiervoor onze cursus Big data architectuur en infrastructuur. Verder is minimale kennis van SQL, UNIX/Linux en Java een pluspunt. In elk geval is enige programmeerervaring (b.v. met Java, PHP, Python, Perl, C++ of C#) noodzakelijk.

Inhoud

  • Motivatie voor Hadoop & basisconcepten
  • Het Apache Hadoop-project en de Hadoop-componenten
  • HDFS: het Hadoop Distributed File System
  • MapReduce: wat en hoe
  • Werking van een Hadoop-cluster
  • Schrijven van een MapReduce-programma
  • MapReduce drivers, mappers en reducers implementeren in Java
  • Mappers en Reducers schrijven in een andere programmeer- of scriptingtaal (b.v. Perl)
  • Unit testing
  • Schrijven van partitioners voor het optimaliseren van load balancing
  • Het debuggen van een MapReduce-programma
  • Data Input / Output
  • Sequentiële data lezen en schrijven vanuit een MapReduce-programma
  • Het gebruik van binaire data
  • Datacompressie
  • Enkele veelgebruikte MapReduce-componenten
  • Sorteren, zoeken, indexeren van data
  • Tellen van woorden en woord-paren
  • Werken met Hive en Pig
  • Pig als high-level "basis"-interface voor het laten genereren van een reeks MapReduce-jobs
  • Hive als SQL-stijl high-level interface voor het laten genereren van een reeks MapReduce-jobs
  • Het Parquet file-formaat: structuur en typisch gebruik; voordelen van datacompressie; uitwisselbaarheid
  • Korte kennismaking met HBase en Cassandra als alternatieve data store

Verloop van de cursus

Klassikale opleiding, waarbij de nadruk ligt op praktische voorbeelden, ondersteund door uitgebreide praktijkoefeningen.

Duur

2 dagen.

Docent

Peter Vanroose.

Reviews

Een dag langer?

 
  (, )

Redelijk veel info voor de beschikbare periode

 
  (, )

Interessante kennismaking. Voor mij soms te veel theorie

 
  (, )

goed overzicht van big data architectuur en de samenhang tussen producten en tools

 
  (, )

Wel ok, ik denk dat de algemene uitleg veel sneller kan. Soms veel focus op details die voor mij bijna irrelevant lijken. Kan ook aan mij liggen.

 
  (, )

De meeste belangrijke punten zijn behandeld in de cursus.

 
  (, )

Zeer goede introductie

 
  (, )

Bon debut pour commencer dans le Big data

 
  (, )

Klik hier om meer commentaren te zien...

Happy with the training even if I would spend less time on HDFS and MapReduce and more time in others components (Pig, Hive,...)

 
  (, )

Ook interessant

Cursisten van deze training hebben ook volgende cursussen gevolgd:


SESSIE-INFO EN INSCHRIJVEN