data scientiste big data

Description

Data Science avec Python

Durée : 28 heures
Modalités techniques d’évaluation : Évaluation des connaissances par QCM, évaluation des compétences au travers de travaux pratiques et de cas d’études. Contrôle de l’acquisition des connaissances et des compétences pendant la formation par le formateur.
Moyens pédagogiques : Apports théoriques réalisés en classe et complétés par de nombreux travaux pratiques permettent aux participants de disposer d’une expérience concrète. A l’issue des sessions magistrales, réalisation de cas d’études tutorés.

Objectifs :

  • Maîtriser les bases de python
  • Etre capable d’analyser des données avec python
  • Etre capable d’automatiser le traitement de données avec python
  • Connaître les outils pour la data science de python

Programme :

Introduction à la Data Science (la science des données)

  • Qu’est-ce que la Data Science ?
  1. Définition
  2. Différence entre statistiques et Data Science
  3. Champs d’application de la Data Science
  4. Outils et algorithmes pour faire de la Data Science
  • Les méthodes de Machine Learning (apprentissage automatique)
  1. L’apprentissage supervisé
  2. L’apprentissage non supervisé
  3. L’apprentissage renforcé

Introduction au langage python

  • Pour qui ? Pour quoi faire ? Comment ?
  • Les consoles et le débogage en python
  • Le langage (la syntaxe, les structures (string, listes, dictionnaires…), les opérateurs et les fonctions)
  • Construction d’un outil de calcul de statistiques simples
  • Les classes, les objets et la création de bibliothèques

Python pour le traitement des données

  • Le processus de développement d’un outil en python pour la data science
  • L’importation des données (texte, csv, Excel, web scrapping., SQL..)

La préparation et le nettoyage des données (jointure, filtre, transformation, traitement des données manquantes avec pandas, numpy et scipy)

La data visualisation

  • Présentation des principes de la data visualisation
  • Quelques graphiques simples avec matplotlib : scatter plot, box plot, histogrammes…
  • Présentation de visualisation plus avancées
  • Utilisation de Bokeh pour des visualisations interactives

Introduction au machine learning : présentation des principes de l’apprentissage automatique

Préparation des données avec la bibliothèque scikit-learn

Cas pratiques en machine learning

  • La prévision en marketing
  • L’extraction d’informations pertinentes
  • Les k-means pour la compression d’images
  • Les k-plus proches voisins pour la prévision de scores
  • Le traitement de données textuelles
  • La classification d’image avec le deep learning

L’automatisation et la mise en production de traitements avec python (pipeline)

Les bibliothèques pour le big data et le deep learning

  • pyspark
  • keras