Talend Open Studio (TOS) est une application libre de type ETL permettant d’effectuer des synchronisations massives d’informations d’une base de données vers une autre. Ce stage vous apprendra à concevoir, modéliser et développer des « jobs » TOS afin de faire face aux différentes problématiques.

Description

Durée : 28 heures
Modalités techniques d’évaluation : Évaluation des connaissances par QCM, évaluation des compétences au travers de travaux pratiques et de cas d’études. Contrôle de l’acquisition des connaissances et des compétences pendant la formation par le formateur.
Moyens pédagogiques : Apports théoriques réalisés en classe et complétés par de nombreux travaux pratiques permettent aux participants de disposer d’une expérience concrète. A l’issue des sessions magistrales, réalisation de cas d’études tutorés.

Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :

  • Concevoir et développer des jobs dans l’application ETL Talend
  • Optimiser les jobs développés par l’utilisation de contextes et jeux de données
  • Réaliser des transformations plus complexes en utilisant variables, expressions et jointures
  • Exécuter et déboguer un job, tracer les statistiques d’exécution

Travaux pratiques

Suite de mini projets permettant de concevoir des jobs Talend de plus en plus élaborés.

Méthodes pédagogiques

Apports théoriques illustrés par des exemples de mise en oeuvre puis consolidés par la réalisation de mini projets Talend.
PROGRAMME DE FORMATION

Présentation

  • L’intégration de données. Les solutions ETL.
  • TOS : installation, préférences utilisateur. Documentation de référence.
  • Philosophie du produit. Conception d’un job.

Travaux pratiques
Prise en main de l’outil. Présentation du cahier des charges du projet fil rouge.

Modéliser le besoin, concevoir un premier job

  • Business Modeler. Job Designer.
  • Principales connexions. Composants CSV et XML.
  • Composants de transformation simples.
  • Visualiser du code généré, exécuter un job.

Exercice
Développement d’un job assurant le tri d’une source CSV, le filtrage de données et le stockage du résultat dans un fichier XML.

Optimiser le développement des jobs

  • Configurer des connexions réutilisables à l’aide des métadonnées.
  • Mettre à jour les métadonnées et les propager sur les jobs, importer/exporter des métadonnées.
  • Paramétrer les jobs par des contextes.
  • Externaliser les variables de contexte dans des fichiers « .properties » et « .ini ».
  • Créer et gérer ses propres variables.
  • Générer des jeux de données pour des tests.

Exercice
Refactorer un job en utilisant métadonnées et contextes. Générer un jeu de données de test pour ce job.

Travailler avec des bases de données

  • Bases de données supportées et principaux composants.
  • Paramétrages des opérations sur les tables.
  • Métadonnées et contexte de connexion à un schéma de base de données.
  • Partage de connexions et gestion des transactions.
  • Créer des requêtes à l’aide de SQLBuilder.

Exercice
Lecture et mise à jour d’un référentiel de données hébergé sur un serveur MySQL.

Travailler sur des données multisources

  • Présentation du composant tMap.
  • Configuration des flux d’entrée, créations de jointures.
  • Réaliser des transformations en utilisant variables, expressions et jointures.
  • Qualifier les données à l’aide de filtres.
  • Générer des sorties multiples, gérer les rejets.

Exercice
Consolidation de données multisources et génération d’un entrepôt.

Compléments

  • Décomposer un job en sous-jobs, utilisation du tRunJob. Lancer les jobs en ligne de commande. Exécution périodique.
  • Débogage d’un job, tracer les statistiques d’exécution.
  • Reporting tJasperOutput.

Exercice
Génération d’un rapport Jasper Report à partir d’un entrepôt.