Formation Text Mining par la pratique -

Le Data Mining restreint aux données textuelles – le Text Mining – est de plus en plus utilisé dans les entreprises. Il permet, par exemple, de classer des produits à partir des commentaires des consommateurs. Vous mettrez en œuvre les algorithmes et les outils du Text Mining sur des exemples paradigmatiques.

Description

Durée : 28 heures
Modalités techniques d’évaluation : Évaluation des connaissances par QCM, évaluation des compétences au travers de travaux pratiques et de cas d’études. Contrôle de l’acquisition des connaissances et des compétences pendant la formation par le formateur.
Moyens pédagogiques : Apports théoriques réalisés en classe et complétés par de nombreux travaux pratiques permettent aux participants de disposer d’une expérience concrète. A l’issue des sessions magistrales, réalisation de cas d’études tutorés.

Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :

Comprendre les méthodes de la statistique textuelle
Mettre en œuvre l’extraction des caractéristiques de données textuelles
Créer des sélections et des classements dans de grands volumes de données textuelles
Choisir un algorithme de classification
Évaluer les performances prédictives d’un algorithme

PROGRAMME DE FORMATION

Les approches traditionnelles en Text Mining

Les API pour récupérer des données textuelles.
La préparation des données textuelles en fonction de la problématique.
La récupération et l’exploration du corpus de textes.
La suppression des caractères accentués et spéciaux.
Stemming, Lemmatization et suppression des mots de liaison.
Tout rassembler pour nettoyer et normaliser les données.

Travaux pratiques
La recherche des documents, la préparation, la transformation et la vectorisation des données en DataFrame.

Feature Engineering pour la représentation de texte

Comprendre la syntaxe et la structure du texte.
Le modèle Bag of Words et Bag of N-Grams.
Le modèle TF-IDF, Transformer et Vectorizer.
Le modèle Word2Vec et l’implémentation avec Gensim.
Le modèle GloVe.
Le modèle FastText.

Travaux pratiques
Mise en place des opérations d’extraction des caractéristiques de données textuelles afin d’effectuer des classifications.

La similarité des textes et classification non supervisée

Les concepts essentiels de similarité.
Analyse de la similarité des termes : distances Hamming, Manhattan, Euclidienne et Levenshtein.
Analyse de la similarité des documents.
Okapi BM25 et le palmarès de classement.
Les algorithmes de classification non supervisée.

Travaux pratiques
Construire un système de recommandation des produits similaires sur la base de la description et du contenu des produits que vous avez choisi.

La classification supervisée du texte

Prétraitement et normalisation des données.
Modèles de classification.
Multinomial Naïve Bayes.
Régression logistique. Support Vector Machines.
Random Forest. Gradient Boosting Machines.
Évaluation des modèles de classification.

Travaux pratiques
Mise en œuvre des classifications supervisées sur plusieurs jeux de données.

Natural Language Processing et Deep Learning

Les librairies NLP : NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP.
Les librairies Deep Learning : Theano, TensorFlow, Keras.
Natural Language Processing et Recurrent Neural Networks.
RNN et Long Short-Term Memory. Les modèles bidirectionnels RNN.
Les modèles Sequence-to-Sequence.
Questions et réponses avec les modèles RNN.

Travaux pratiques
Construire un RNN pour générer un nouveau texte.

<< retour à la liste

Cookie	Durée	Description
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Description

Objectifs pédagogiques

Les approches traditionnelles en Text Mining

Feature Engineering pour la représentation de texte

La similarité des textes et classification non supervisée

La classification supervisée du texte

Natural Language Processing et Deep Learning

Ces formations peuvent vous intéresser:

Formation Big Data Analytics avec Python modélisation et représentation des données

Formation Machine learning, méthodes et solutions

Machine Learning et Deep Learning avec Python