Big data in de praktijk met Hadoop

Ga tijdens deze tweedaagse ABIS-opleiding zelf aan de slag met Apache Hadoop: HDFS, Yarn, Pig en Hive.

Iedereen is tegenwoordig aan de slag met "big data", voornamelijk in de context van analytics en "Data Science". Ook u wilt ongetwijfeld zelf uw diverse databronnen (click streams, sociale media, relationele data, sensor-data, IoT, ...) opslaan en gericht kunnen ondervragen, en u merkt dat de klassieke data-tools hierbij tekort schieten. Dan hebt u wellicht behoefte aan distributed data stores zoals HDFS en een MapReduce-infrastructuur zoals die van Hadoop.

Deze cursus bouwt verder op de concepten die in Big data architectuur en infrastructuur aangebracht worden. We gaan tijdens de training zelf aan de slag met Apache Hadoop: HDFS, Yarn, Pig en Hive.

U leert

hoe u robuuste gedistribueerde data-processing implementeert met een SQL-achtige interface die MapReduce-jobs genereert;
werken met de grafische tools die de jobs en de workflows over de gedistribueerde Hadoop-cluster opvolgt.

Na afloop van deze cursus hebt u voldoende basis-expertise opgebouwd om zelfstandig een Hadoop-cluster op te zetten, data te importeren in HDFS, en zinvol te ondervragen met MapReduce.

Wanneer u Hadoop wil gebruiken met Spark, verwijzen we u naar de cursus Big data in de praktijk met Spark.

Opleiding inplannen?

Een interactieve, live training – gegeven in een fysiek klaslokaal of online, of in een hybride vorm. De cursus kan gegeven worden in het Nederlands, Engels of Frans.

BEDRIJFSOPLEIDING AANVRAGEN

Publieke opleidingskalender

Momenteel zijn er voor deze cursus geen publieke sessies gepland. Graag organiseren we een bedrijfssessie voor u of een extra publieke sessie (bij voldoende belangstelling). Geïnteresseerd? Laat het ons weten.

Doelgroep

Iedereen die praktisch aan de slag wil met "big data": ontwikkelaars, data-architecten, en iedereen die met big data technologie moet kunnen werken.

Voorkennis

Vertrouwdheid met de concepten van data stores en i.h.b. "big data" is noodzakelijk; zie hiervoor onze cursus Big data architectuur en infrastructuur. Verder is minimale kennis van SQL, Linux en Java een pluspunt. In elk geval is enige programmeerervaring (b.v. met Java, PHP, Python, Perl, C++ of C#) noodzakelijk.

Inhoud

Motivatie voor Hadoop & basisconcepten
- Het Apache Hadoop-project en de Hadoop-componenten
- HDFS: het Hadoop Distributed File System
- MapReduce: wat en hoe
- Werking van een Hadoop-cluster
Schrijven van een MapReduce-programma
- MapReduce drivers, mappers en reducers implementeren in Java
- Mappers en Reducers schrijven in een andere programmeer- of scriptingtaal (b.v. Perl)
- Unit testing
- Schrijven van partitioners voor het optimaliseren van load balancing
- Het debuggen van een MapReduce-programma
Data Input / Output
- Sequentiële data lezen en schrijven vanuit een MapReduce-programma
- Het gebruik van binaire data
- Datacompressie
Enkele veelgebruikte MapReduce-componenten
- Sorteren, zoeken, indexeren van data
- Tellen van woorden en woord-paren
Werken met Hive en Pig
- Pig als high-level "basis"-interface voor het laten genereren van een reeks MapReduce-jobs
- Hive als SQL-stijl high-level interface voor het laten genereren van een reeks MapReduce-jobs
Het Parquet file-formaat: structuur en typisch gebruik; voordelen van datacompressie; uitwisselbaarheid
Korte kennismaking met HBase en Cassandra als alternatieve data store

Verloop van de cursus

Klassikale opleiding, waarbij de nadruk ligt op praktische voorbeelden, ondersteund door uitgebreide praktijkoefeningen.

Certificaat

Na afloop van de sessie ontvangt de deelnemer een “Certificaat van deelname”.

Duur

2 dagen.

Docent

Peter Vanroose (ABIS).

SESSIE-INFO EN INSCHRIJVEN