big data

Description

Introduction au Big Data

Durée : 28 heures
Modalités techniques d’évaluation : Évaluation des connaissances par QCM, évaluation des compétences au travers de travaux pratiques et de cas d’études. Contrôle de l’acquisition des connaissances et des compétences pendant la formation par le formateur.
Moyens pédagogiques : Apports théoriques réalisés en classe et complétés par de nombreux travaux pratiques permettent aux participants de disposer d’une expérience concrète. A l’issue des sessions magistrales, réalisation de cas d’études tutorés.

Objectifs :

  • Comprendre le concept du Big Data
  • Être capable d’identifier l’écosystème et comprendre les technologies associées
  • Savoir anticiper son intégration dans les activités informatiques de l’entreprise

Programme :

 Définition commune du Big Data selon les grands acteurs du marché

  • Caractéristiques techniques des 3V de Gartner (Vélocité, Variété et Volume) et les variantes (Véracité, Valeur, Validité….)
  • Big Data : pourquoi maintenant ?
  • Traitement des données structurées, semi-structurées et déstructurées
  • Transformation des données massives en informations utiles et en valeur
  • Gestion des données en cycles, de l’acquisition à la gouvernance. Use Case et stratégies (GAFA (Google, Apple, Facebook, Amazon), exemples santé, grande distribution, bancassurance…)
  • Les grands acteurs et le marché du Big Data

 Description des technologies de référence du Big Data

  • NoSQL (Not Only SQL) et les nouvelles compétences attendues (Python, R, Scala, Java)…
  • Hadoop : un modèle d’open source du Big Data adopté par les grands acteurs de l’informatique (IBM, Oracle, Amazone, EMC, Google…)
  • Principaux composants d’Hadoop : HDFS (Hadoop Distributed File System), MapReduce, Pig, Flume, Zookeeper, H-BASE, Lucene, Hive, Cloudera, Oozie, Cassandra, Machine Learning…
  • Autres solutions : Docker, OpenStack, Elastic, Splunk…
  • Nouvelles architectures techniques pour traiter des données massives et non-structurées, en temps réel (SPARK)

Relation entre Big Data et Cloud DaaS (Data as a Service)

  • Technologies associées au Cloud (datacenters, stockage, virtualisation, Grid, OS d’orchestration d’Openstack, réseaux…)
  • Emergence des solutions Big Data proposées en mode Cloud DaaS (Data as a service)

Déploiement et utilisation du Big Data

  • Description d’une plate-forme de Big Data et bonnes pratiques
  • Intégration des données et systèmes existants à la plate-forme Big Data
  • Acquisition et qualification des données ouvertes des organisations publiques et sociales (Open Data)
  • Traitement des données à la volée (Data Streaming)
  • Analyse de données (Data Analytics et Business Intelligence)
  • Présentation des informations (Data Visualization)

L’apport du NoSQL

  • Description des principales familles de bases de données NoSQL
  • Zoom sur MongoDb
  • Zoom sur Cassandra
  • Zoom sur Neo4j

 au cœur des écosystèmes Hadoop et Spark

  • Introduction générale
  • Les principales briques et leur rôle
  • PIG, Hive, Oozie, Flume, HDFS, MapReduce, Sqoop, Zookeeper, Hbase, Mahout, les connecteurs, …
  • SparkML, SparkQL, MLlib, Kafka, Storm, Flink , Beam, …