big data

Durée : 28 heures
Modalités techniques d’évaluation : Évaluation des connaissances par QCM, évaluation des compétences au travers de travaux pratiques et de cas d’études. Contrôle de l’acquisition des connaissances et des compétences pendant la formation par le formateur.
Moyens pédagogiques : Apports théoriques réalisés en classe et complétés par de nombreux travaux pratiques permettent aux participants de disposer d’une expérience concrète. A l’issue des sessions magistrales, réalisation de cas d’études tutorés.

Objectifs :

  • Créer l’architecture d’une solution Hadoop
  • Installer et configurer un cluster Hadoop

 

Description

Programme :

  • Stockage et traitement des données
  • Installation du système de fichiers distribué Hadoop (HDFS)
  • Configurer et installer le système de fichiers
  • Exécuter des commandes depuis la console
  • Préparer l’environnement pour MapReduce
  • Les services associés
  • Définition des spécifications d’un cluster Hadoop
  • Planification de l’architecture, considérations matérielles
  • Installation des services Hadoop
  • Architecture réseau
  • Configuration du cluster
  • Préparation du système HDFS
  • Paramétrer les principales options de configuration
  • Configurer les redondance, réplication et affectation des blocs
  • Déploiement de MapReduce
  • Optimiser HDFS
  • Créer un système de fichiers tolérant aux pannes
  • Isoler les éléments dysfonctionnels
  • Garantir la haute disponibilité
  • Déclencher le basculement
  • Optimiser la fédération des nœuds de nommage
  • Développer des ressources HDFS
  • Gérer les volumes des espaces de noms
  • Introduction à YARN
  • Gestion des ressources et de l’intégrité du cluster
  • Affectation des ressources
  • Définir des quotas pour limiter l’utilisation du système HDFS
  • Planificateurs pour hiérarchiser l’accès à MapReduce
  • Gestion de HDFS
  • Administration des services
  • Gestion des nœuds
  • Administration de MapReduce
  • Maintenance du cluster
  • Utiliser les outils standards intégrés
  • Gérer et déboguer les processus avec les mesures JVM
  • Vérifier l’état d’Hadoop
  • Utiliser des outils de personnalisation complémentaires
  • Évaluer les performances avec Ganglia et Chukwa
  • Benchmarking pour garantir des performances continues
  • Planification des stratégies de sauvegarde, de récupération et de sécurité
  • Gérer les pannes matérielles courantes
  • Sécuriser le cluster Hadoop