Description

Analyse de données avec Pig, Hive et Spark

Durée : 28 heures
Modalités techniques d’évaluation : Évaluation des connaissances par QCM, évaluation des compétences au travers de travaux pratiques et de cas d’études. Contrôle de l’acquisition des connaissances et des compétences pendant la formation par le formateur.
Moyens pédagogiques : Apports théoriques réalisés en classe et complétés par de nombreux travaux pratiques permettent aux participants de disposer d’une expérience concrète. A l’issue des sessions magistrales, réalisation de cas d’études tutorés.

Objectifs :

Comprendre ce que sont Hadoop et YARN
Pouvoir manipuler des données sous Hadoop
Savoir manipuler les données PIG
Savoir analyser les données avec HIVE

Programme :

Introduction

Introduction au Big Data – Comprendre les concepts clés et les enjeux du Big Data
Introduction à Hadoop – Principales distributions de Hadoop
La plateforme Hadoop

Architecture et composants de la plateforme Hadoop

HDFS
NameNode / DataNode / RessourceManager
Paradigme MapReduce et YARN
Les technologies émergentes

Traitement des données avec Pig

Description et caractéristiques de Pig : Présentation Pig, Différence entre Pig et MapReduce, Cas d’utilisation de Pig
Traitement des données : Modélisation des données, Programmation avec Pig Latin, Transformations dans la syntaxe Pig Latin, Fonctions de chargement et de stockage
Travaux pratiques

Requêtage des données avec Hive

Description et caractéristiques de Hive
Utilisation de Hcatalog
Analyse des données avec Hive
Management des données Hive : Formats de données Hive, Création des bases de données et des tableaux de management, Tableaux auto-managés, Simplification des requêtes avec Views, Stockage des résultats de requêtes, Contrôle ‘accès aux données
Traitement de texte avec Hive : Fonctions String, Utilisation des expressions habituelles dans Hive

Apache Spark SQL

Présentation générale
Caractéristiques – Architecture
Les bases de Spark
DataFrame et DataSets
Les RDD
Le SQL Contexte
Opérations sur le DataFrames et les DataSets
Comparaison entre Spark SQL et Hive

<< retour à la liste

Cookie	Durée	Description
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Description

Analyse de données avec Pig, Hive et Spark

Objectifs :

Programme :

Introduction

Architecture et composants de la plateforme Hadoop

Traitement des données avec Pig

Requêtage des données avec Hive

Apache Spark SQL

Ces formations peuvent vous intéresser:

Hadoop – Cloudera pour architectes et administrateurs

Introduction au Big Data

Concevoir des solutions d’entreprise avec MongoDB