Description
Analyse de données avec Pig, Hive et Spark
Durée : 28 heures
Modalités techniques d’évaluation : Évaluation des connaissances par QCM, évaluation des compétences au travers de travaux pratiques et de cas d’études. Contrôle de l’acquisition des connaissances et des compétences pendant la formation par le formateur.
Moyens pédagogiques : Apports théoriques réalisés en classe et complétés par de nombreux travaux pratiques permettent aux participants de disposer d’une expérience concrète. A l’issue des sessions magistrales, réalisation de cas d’études tutorés.
Objectifs :
- Comprendre ce que sont Hadoop et YARN
- Pouvoir manipuler des données sous Hadoop
- Savoir manipuler les données PIG
- Savoir analyser les données avec HIVE
Programme :
Introduction
- Introduction au Big Data – Comprendre les concepts clés et les enjeux du Big Data
- Introduction à Hadoop – Principales distributions de Hadoop
- La plateforme Hadoop
Architecture et composants de la plateforme Hadoop
- HDFS
- NameNode / DataNode / RessourceManager
- Paradigme MapReduce et YARN
- Les technologies émergentes
Traitement des données avec Pig
- Description et caractéristiques de Pig : Présentation Pig, Différence entre Pig et MapReduce, Cas d’utilisation de Pig
- Traitement des données : Modélisation des données, Programmation avec Pig Latin, Transformations dans la syntaxe Pig Latin, Fonctions de chargement et de stockage
- Travaux pratiques
Requêtage des données avec Hive
- Description et caractéristiques de Hive
- Utilisation de Hcatalog
- Analyse des données avec Hive
- Management des données Hive : Formats de données Hive, Création des bases de données et des tableaux de management, Tableaux auto-managés, Simplification des requêtes avec Views, Stockage des résultats de requêtes, Contrôle ‘accès aux données
- Traitement de texte avec Hive : Fonctions String, Utilisation des expressions habituelles dans Hive
Apache Spark SQL
- Présentation générale
- Caractéristiques – Architecture
- Les bases de Spark
- DataFrame et DataSets
- Les RDD
- Le SQL Contexte
- Opérations sur le DataFrames et les DataSets
- Comparaison entre Spark SQL et Hive