Data Engineering on Microsoft Azure (DP-203T00-A)

Dans ce cours, l'étudiant découvrira les modèles et les pratiques d'ingénierie des données en ce qui concerne l'utilisation de solutions analytiques par lots et en temps réel à l'aide des technologies de plate-forme de données Azure. Les étudiants commenceront par comprendre les principales technologies de calcul et de stockage utilisées pour créer une solution analytique. Ils exploreront ensuite comment concevoir des couches de service analytiques et se concentreront sur les considérations d'ingénierie des données pour travailler avec des fichiers source. Les étudiants apprendront à explorer de manière interactive les données stockées dans les fichiers d'un lac de données. Ils apprendront les différentes techniques d'ingestion qui peuvent être utilisées pour charger des données à l'aide de la fonctionnalité Apache Spark trouvée dans Azure Synapse Analytics ou Azure Databricks, ou comment ingérer à l'aide d'Azure Data Factory ou des pipelines Azure Synapse. Les étudiants apprendront également les différentes manières dont ils peuvent transformer les données en utilisant les mêmes technologies que celles utilisées pour ingérer les données. L'étudiant passera du temps sur le cours à apprendre à surveiller et à analyser les performances du système analytique afin d'optimiser les performances des chargements de données ou des requêtes émises contre les systèmes. Ils comprendront l'importance de mettre en œuvre la sécurité pour garantir que les données sont protégées au repos ou en transit. L'étudiant montrera ensuite comment les données d'un système analytique peuvent être utilisées pour créer des tableaux de bord ou créer des modèles prédictifs dans Azure Synapse Analytics.


Public visé :

Le public principal de ce cours est constitué de professionnels des données, d'architectes de données et de professionnels de l'intelligence d'affaires qui souhaitent en savoir plus sur l'ingénierie des données et la création de solutions analytiques à l'aide des technologies de plate-forme de données qui existent sur Microsoft Azure. Public secondaire de ce cours : analystes de données et data scientists qui travaillent avec des solutions analytiques basées sur Microsoft Azure.


Pré-requis :

Les étudiants qui réussissent commencent ce cours avec une connaissance du cloud computing et des concepts de données de base et une expérience professionnelle avec des solutions de données.

Compléter spécifiquement :

  • AZ-900 - Principes fondamentaux d'Azure
  • DP-900 - Microsoft Azure Data Fundamentals


Objectifs pédagogiques :

  • Explorer les options de calcul et de stockage pour les charges de travail d'ingénierie des données dans Azure
  • Concevoir et mettre en œuvre la couche de service
  • Comprendre les considérations relatives à l'ingénierie des données
  • Exécuter des requêtes interactives à l'aide de pools SQL sans serveur
  • Explorer, transformer et charger des données dans le Data Warehouse à l'aide d'Apache Spark
  • Effectuer l'exploration et la transformation des données dans Azure Databricks
  • Ingérer et charger des données dans l'entrepôt de données
  • Transformer les données avec Azure Data Factory ou Azure Synapse Pipelines
  • Intégrer les données des notebooks avec Azure Data Factory ou Azure Synapse Pipelines
  • Optimiser les performances des requêtes avec des pools SQL dédiés dans Azure Synapse
  • Analyser et optimiser le stockage de l'entrepôt de données
  • Prise en charge du traitement analytique transactionnel hybride (HTAP) avec Azure Synapse Link
  • Assurer la sécurité de bout en bout avec Azure Synapse Analytics
  • Effectuer un traitement de flux en temps réel avec Stream Analytics
  • Créer une solution de traitement de flux avec Event Hubs et Azure Databricks
  • Créer des rapports à l'aide de l'intégration de Power BI avec Azure Synpase Analytics
  • Effectuer des processus d'apprentissage automatique intégrés dans Azure Synapse Analytics


Programme de cours

1-Explorer les options de calcul et de stockage pour les charges de travail d'ingénierie des données

Ce module fournit une vue d'ensemble des options de technologie de calcul et de stockage Azure disponibles pour les ingénieurs de données créant des charges de travail analytiques. Ce module explique comment structurer le lac de données et optimiser les fichiers pour les charges de travail d'exploration, de streaming et de traitement par lots. L'étudiant apprendra à organiser le lac de données en niveaux de raffinement des données lors de la transformation des fichiers via le traitement par lots et par flux. Ensuite, ils apprendront à créer des index sur leurs ensembles de données, tels que les fichiers CSV, JSON et Parquet, et à les utiliser pour une accélération potentielle des requêtes et de la charge de travail.

  • Introduction à Azure Synapse Analytics
  • Décrire Azure Databricks
  • Introduction au stockage Azure Data Lake
  • Décrire l'architecture du lac Delta
  • Travailler avec des flux de données à l'aide d'Azure Stream Analytics
  • Combiner le streaming et le traitement par lots avec un seul pipeline
  • Organiser le lac de données en niveaux de transformation de fichiers
  • Indexer le stockage du lac de données pour l'accélération des requêtes et de la charge de travail

A l'issue de ce module, les étudiants seront capables de :

  • Décrire Azure Synapse Analytics
  • Décrire Azure Databricks
  • Décrire le stockage Azure Data Lake
  • Décrire l'architecture du lac Delta
  • Décrire Azure Stream Analytics


2 -Concevoir et implémenter la couche de service

Ce module enseigne comment concevoir et mettre en œuvre des magasins de données dans un entrepôt de données moderne pour optimiser les charges de travail analytiques. L'étudiant apprendra à concevoir un schéma multidimensionnel pour stocker des données de fait et de dimension. Ensuite, l'étudiant apprendra à remplir des dimensions à évolution lente grâce au chargement de données incrémentiel à partir d'Azure Data Factory.

  • Concevoir un schéma multidimensionnel pour optimiser les charges de travail analytiques
  • Transformation sans code à grande échelle avec Azure Data Factory
  • Remplir les dimensions à évolution lente dans les pipelines Azure Synapse Analytics
  • Atelier : Concevoir et implémenter la couche de service
  • Concevoir un schéma en étoile pour les charges de travail analytiques
  • Remplir des dimensions à évolution lente avec Azure Data Factory et mapper les flux de données

A l'issue de ce module, les étudiants seront capables de :

  • Concevoir un schéma en étoile pour les charges de travail analytiques
  • Remplir des dimensions à évolution lente avec Azure Data Factory et mapper les flux de données


3-Considérations relatives à l'ingénierie des données pour les fichiers source

Ce module explore les considérations d'ingénierie des données qui sont courantes lors du chargement de données dans un entrepôt de données moderne analytique à partir de fichiers stockés dans un lac de données Azure, et la compréhension des considérations de sécurité associées au stockage des fichiers stockés dans le lac de données.

  • Concevoir un entrepôt de données moderne à l'aide d'Azure Synapse Analytics
  • Sécuriser un entrepôt de données dans Azure Synapse Analytics
  • Gestion des fichiers dans un lac de données Azure
  • Sécurisation des fichiers stockés dans un lac de données Azure

A l'issue de ce module, les étudiants seront capables de :

  • Concevoir un entrepôt de données moderne à l'aide d'Azure Synapse Analytics
  • Sécuriser un entrepôt de données dans Azure Synapse Analytics


4 : Exécuter des requêtes interactives à l'aide des pools SQL sans serveur Azure Synapse Analytics

Dans ce module, les étudiants apprendront à travailler avec des fichiers stockés dans le lac de données et des sources de fichiers externes, via des instructions T-SQL exécutées par un pool SQL sans serveur dans Azure Synapse Analytics. Les étudiants interrogeront les fichiers Parquet stockés dans un lac de données, ainsi que les fichiers CSV stockés dans un magasin de données externe. Ensuite, ils créeront des groupes de sécurité Azure Active Directory et appliqueront l'accès aux fichiers dans le lac de données via le contrôle d'accès basé sur les rôles (RBAC) et les listes de contrôle d'accès (ACL).

  • Explorer les capacités des pools SQL sans serveur Azure Synapse
  • Interroger les données dans le lac à l'aide des pools SQL sans serveur Azure Synapse
  • Créer des objets de métadonnées dans les pools SQL sans serveur Azure Synapse
  • Sécuriser les données et gérez les utilisateurs dans les pools SQL sans serveur Azure Synapse
  • Interroger les données Parquet avec des pools SQL sans serveur
  • Créer des tables externes pour les fichiers Parquet et CSV
  • Créer des vues avec des pools SQL sans serveur
  • Accès sécurisé aux données dans un lac de données lors de l'utilisation de pools SQL sans serveur
  • Configurer la sécurité du lac de données à l'aide du contrôle d'accès basé sur les rôles (RBAC) et de la liste de contrôle d'accès

A l'issue de ce module, les étudiants seront capables de :

  • Comprendre les capacités des pools SQL sans serveur Azure Synapse
  • Interroger les données dans le lac à l'aide des pools SQL sans serveur Azure Synapse
  • Créer des objets de métadonnées dans les pools SQL sans serveur Azure Synapse
  • Sécuriser les données et gérez les utilisateurs dans les pools SQL sans serveur Azure Synapse


5-Explorer, transformer et charger des données dans le Data Warehouse à l'aide d'Apache Spark

Ce module enseigne comment explorer les données stockées dans un lac de données, transformer les données et charger les données dans un magasin de données relationnelles. L'étudiant explorera les fichiers Parquet et JSON et utilisera des techniques pour interroger et transformer des fichiers JSON avec des structures hiérarchiques. Ensuite, l'étudiant utilisera Apache Spark pour charger des données dans l'entrepôt de données et joindre les données Parquet dans le lac de données avec les données dans le pool SQL dédié.

Comprendre l'ingénierie Big Data avec Apache Spark dans Azure Synapse Analytics

  • Ingérer des données avec des blocs-notes Apache Spark dans Azure Synapse Analytics
  • Transformer les données avec les DataFrames dans les pools Apache Spark dans Azure Synapse Analytics
  • Intégrer les pools SQL et Apache Spark dans Azure Synapse Analytics
  • Atelier : Explorer, transformer et charger des données dans le Data Warehouse à l'aide d'Apache Spark
  • Exécuter l'exploration de données dans Synapse Studio
  • Ingérer des données avec des blocs-notes Spark dans Azure Synapse Analytics
  • Transformer des données avec des DataFrames dans des pools Spark dans Azure Synapse Analytics
  • Intégrer les pools SQL et Spark dans Azure Synapse Analytics

A l'issue de ce module, les étudiants seront capables de :

  • Décrire l'ingénierie Big Data avec Apache Spark dans Azure Synapse Analytics
  • Ingérer des données avec des blocs-notes Apache Spark dans Azure Synapse Analytics
  • Transformer les données avec les DataFrames dans les pools Apache Spark dans Azure Synapse Analytics
  • Intégrer les pools SQL et Apache Spark dans Azure Synapse Analytics


6- Exploration et transformation des données dans Azure Databricks

Ce module explique comment utiliser diverses méthodes Apache Spark DataFrame pour explorer et transformer des données dans Azure Databricks. L'étudiant apprendra à exécuter des méthodes DataFrame standard pour explorer et transformer des données. Ils apprendront également à effectuer des tâches plus avancées, telles que la suppression des données en double, la manipulation des valeurs date/heure, le renommage des colonnes et l'agrégation des données.

  • Décrire Azure Databricks
  • Lire et écrire des données dans Azure Databricks
  • Utiliser des DataFrames dans Azure Databricks
  • Travailler avec les méthodes avancées DataFrames dans Azure Databricks
  • Utiliser DataFrames dans Azure Databricks pour explorer et filtrer les données
  • Mettre en cache un DataFrame pour des requêtes ultérieures plus rapides
  • Supprimer les données en double
  • Manipuler les valeurs de date/heure
  • Supprimer et renommer les colonnes DataFrame
  • Agréger les données stockées dans un DataFrame

A l'issue de ce module, les étudiants seront capables de :

  • Décrire Azure Databricks
  • Lire et écrire des données dans Azure Databricks
  • Utiliser des DataFrames dans Azure Databricks
  • Travailler avec les méthodes avancées DataFrames dans Azure Databricks


7-Ingérer et charger des données dans l'entrepôt de données

Ce module enseigne aux étudiants comment ingérer des données dans l'entrepôt de données via des scripts T-SQL et des pipelines d'intégration Synapse Analytics. L'étudiant apprendra à charger des données dans des pools SQL dédiés à Synapse avec PolyBase et COPY à l'aide de T-SQL. L'étudiant apprendra également à utiliser la gestion de la charge de travail avec une activité de copie dans un pipeline Azure Synapse pour l'ingestion de données à l'échelle du pétaoctet.

  • Utiliser les bonnes pratiques de chargement de données dans Azure Synapse Analytics
  • Ingestion à l'échelle du pétaoctet avec Azure Data Factory
  • Réaliser une ingestion à l'échelle du pétaoctet avec Azure Synapse Pipelines
  • Importer des données avec PolyBase et COPIER à l'aide de T-SQL
  • Utiliser les bonnes pratiques de chargement de données dans Azure Synapse Analytics

A l'issue de ce module, les étudiants seront capables de :

  • Utiliser les bonnes pratiques de chargement de données dans Azure Synapse Analytics
  • Ingestion à l'échelle du pétaoctet avec Azure Data Factory


8- Transformer les données avec Azure Data Factory ou Azure Synapse Pipelines

Ce module enseigne aux étudiants comment créer des pipelines d'intégration de données pour ingérer à partir de plusieurs sources de données, transformer des données à l'aide de flux de données de mappage et effectuer un déplacement de données dans un ou plusieurs puits de données.

  • Intégration de données avec Azure Data Factory ou Azure Synapse Pipelines
  • Transformation sans code à grande échelle avec Azure Data Factory ou Azure Synapse Pipelines
  • Atelier : Transformer des données avec Azure Data Factory ou Azure Synapse Pipelines
  • Exécuter des transformations sans code à grande échelle avec Azure Synapse Pipelines
  • Créer un pipeline de données pour importer des fichiers CSV mal formatés
  • Créer des flux de données cartographiques

A l'issue de ce module, les étudiants seront capables de :

  • Réaliser l'intégration de données avec Azure Data Factory
  • Réaliser une transformation sans code à grande échelle avec Azure Data Factory


9-Orchestrer le mouvement et la transformation des données dans Azure Synapse Pipelines

Dans ce module, vous apprendrez à créer des services liés et à orchestrer le mouvement et la transformation des données à l'aide de blocs-notes dans Azure Synapse Pipelines.

  • Orchestrer le mouvement et la transformation des données dans Azure Data Factory
  • Intégrer les données des notebooks avec Azure Data Factory ou Azure Synapse Pipelines

A l'issue de ce module, les étudiants seront capables de :

  • Orchestrer le mouvement et la transformation des données dans Azure Synapse Pipelines


10-Optimiser les performances des requêtes avec des pools SQL dédiés dans Azure Synapse

Dans ce module, les étudiants apprendront des stratégies pour optimiser le stockage et le traitement des données lors de l'utilisation de pools SQL dédiés dans Azure Synapse Analytics. L'étudiant saura comment utiliser les fonctionnalités de développement, telles que les fonctions de fenêtrage et HyperLogLog, utiliser les meilleures pratiques de chargement de données et optimiser et améliorer les performances des requêtes.

  • Optimiser les performances des requêtes d'entrepôt de données dans Azure Synapse Analytics
  • Comprendre les fonctionnalités de développement d'entrepôt de données d'Azure Synapse Analytics
  • Comprendre les fonctionnalités de développement d'Azure Synapse Analytics
  • Optimiser les performances des requêtes d'entrepôt de données dans Azure Synapse Analytics
  • Améliorer les performances des requêtes

A l'issue de ce module, les étudiants seront capables de :

  • Optimiser les performances des requêtes d'entrepôt de données dans Azure Synapse Analytics
  • Comprendre les fonctionnalités de développement d'entrepôt de données d'Azure Synapse Analytics


11-Analyser et optimiser le stockage de l'entrepôt de données

Dans ce module, les étudiants apprendront à analyser puis optimiser le stockage des données des pools SQL dédiés Azure Synapse. L'étudiant connaîtra les techniques permettant de comprendre l'utilisation de l'espace table et les détails du stockage du magasin de colonnes. Ensuite, l'étudiant saura comparer les besoins de stockage entre des tables identiques utilisant différents types de données. Enfin, l'étudiant observera l'impact des vues matérialisées lorsqu'elles sont exécutées à la place de requêtes complexes et apprendra comment éviter une journalisation étendue en optimisant les opérations de suppression.

  • Analyser et optimiser le stockage de l'entrepôt de données dans Azure Synapse Analytics
  • Vérifier les données faussées et l'utilisation de l'espace
  • Comprendre les détails du stockage du magasin de colonnes
  • Étudier l'impact des vues matérialisées
  • Explorer les règles pour les opérations minimalement enregistrées

A l'issue de ce module, les étudiants seront capables de :

  • Analyser et optimiser le stockage de l'entrepôt de données dans Azure Synapse Analytics


12-Prise en charge du traitement analytique transactionnel hybride (HTAP) avec Azure Synapse Link

Dans ce module, les étudiants apprendront comment Azure Synapse Link permet une connectivité transparente d'un compte Azure Cosmos DB à un espace de travail Synapse. L'étudiant comprendra comment activer et configurer le lien Synapse, puis comment interroger le magasin analytique Azure Cosmos DB à l'aide d'Apache Spark et de SQL sans serveur.

  • Concevoir un traitement transactionnel et analytique hybride à l'aide d'Azure Synapse Analytics
  • Configurer Azure Synapse Link avec Azure Cosmos DB
  • Interroger Azure Cosmos DB avec les pools Apache Spark
  • Interroger Azure Cosmos DB avec des pools SQL sans serveur
  • Configurer Azure Synapse Link avec Azure Cosmos DB
  • Interroger Azure Cosmos DB avec Apache Spark pour Synapse Analytics
  • Interroger Azure Cosmos DB avec un pool SQL sans serveur pour Azure Synapse Analytics

A l'issue de ce module, les étudiants seront capables de :

  • Concevoir un traitement transactionnel et analytique hybride à l'aide d'Azure Synapse Analytics
  • Configurer Azure Synapse Link avec Azure Cosmos DB
  • Interroger Azure Cosmos DB avec Apache Spark pour Azure Synapse Analytics
  • Interroger Azure Cosmos DB avec SQL sans serveur pour Azure Synapse Analytics


13-Sécurité de bout en bout avec Azure Synapse Analytics

Dans ce module, les étudiants apprendront comment sécuriser un espace de travail Synapse Analytics et son infrastructure de support. L'étudiant observera l'administrateur SQL Active Directory, gérera les règles de pare-feu IP, gérera les secrets avec Azure Key Vault et accédera à ces secrets via un service lié à Key Vault et des activités de pipeline. L'étudiant comprendra comment implémenter la sécurité au niveau des colonnes, la sécurité au niveau des lignes et le masquage dynamique des données lors de l'utilisation de pools SQL dédiés.

  • Sécuriser un entrepôt de données dans Azure Synapse Analytics
  • Configurer et gérer les secrets dans Azure Key Vault
  • Mettre en œuvre des contrôles de conformité pour les données sensibles
  • Infrastructure sécurisée prenant en charge Azure Synapse Analytics
  • Sécuriser l’espace de travail Azure Synapse Analytics et les services managés
  • Sécuriser les données de l'espace de travail Azure Synapse Analytics

A l'issue de ce module, les étudiants seront capables de :

  • Sécuriser un entrepôt de données dans Azure Synapse Analytics
  • Configurer et gérer les secrets dans Azure Key Vault
  • Mettre en œuvre des contrôles de conformité pour les données sensibles


14- Traitement de flux en temps réel avec Stream Analytics

Dans ce module, les étudiants apprendront à traiter les données de streaming avec Azure Stream Analytics. L'étudiant ingérera les données de télémétrie des véhicules dans Event Hubs, puis traitera ces données en temps réel, à l'aide de diverses fonctions de fenêtrage dans Azure Stream Analytics. Ils transmettront les données à Azure Synapse Analytics. Enfin, l'étudiant apprendra à mettre à l'échelle le travail Stream Analytics pour augmenter le débit.

  • Activer une messagerie fiable pour les applications Big Data à l'aide d'Azure Event Hubs
  • Travailler avec des flux de données à l'aide d'Azure Stream Analytics
  • Ingérer des flux de données avec Azure Stream Analytics
  • Utiliser Stream Analytics pour traiter les données en temps réel des Event Hubs
  • Utiliser les fonctions de fenêtrage de Stream Analytics pour créer des agrégats et générer des sorties vers Synapse Analytics
  • Mettre à l'échelle le travail Azure Stream Analytics pour augmenter le débit via le partitionnement
  • Repartitionner l'entrée du flux pour optimiser la parallélisation

A l'issue de ce module, les étudiants seront capables de :

  • Activer une messagerie fiable pour les applications Big Data à l'aide d'Azure Event Hubs
  • Travailler avec des flux de données à l'aide d'Azure Stream Analytics
  • Ingérer des flux de données avec Azure Stream Analytics


15-Créer une solution de traitement de flux avec Event Hubs et Azure Databricks

Dans ce module, les étudiants apprendront comment ingérer et traiter des données de streaming à grande échelle avec Event Hubs et Spark Structured Streaming dans Azure Databricks. L'étudiant apprendra les principales fonctionnalités et utilisations du streaming structuré. L'étudiant mettra en œuvre des fenêtres coulissantes pour agréger des morceaux de données et appliquer un filigrane pour supprimer les données obsolètes. Enfin, l'étudiant se connectera à Event Hubs pour lire et écrire des flux.

  • Traiter les données de streaming avec le streaming structuré Azure Databricks
  • Explorer les principales fonctionnalités et utilisations du streaming structuré
  • Diffuser des données à partir d'un fichier et écrivez-les dans un système de fichiers distribué
  • Utiliser des fenêtres coulissantes pour agréger des morceaux de données plutôt que toutes les données
  • Appliquer un filigrane pour supprimer les données obsolètes
  • Connectez-vous aux flux de lecture et d'écriture Event Hubs

A l'issue de ce module, les étudiants seront capables de :

  • Traiter les données de streaming avec le streaming structuré Azure Databricks


16- Créer des rapports à l'aide de l'intégration de Power BI avec Azure Synpase Analytics

Dans ce module, l'étudiant apprendra à intégrer Power BI à son espace de travail Synapse pour créer des rapports dans Power BI. L'étudiant créera une nouvelle source de données et un rapport Power BI dans Synapse Studio. Ensuite, l'étudiant apprendra comment améliorer les performances des requêtes avec des vues matérialisées et la mise en cache des résultats. Enfin, l'étudiant explorera le lac de données avec des pools SQL sans serveur et créera des visualisations par rapport à ces données dans Power BI.

  • Créer des rapports avec Power BI en utilisant son intégration avec Azure Synapse Analytics
  • Créer des rapports à l'aide de l'intégration de Power BI avec Azure Synpase Analytics
  • Intégrer un espace de travail Azure Synapse et Power BI
  • Optimiser l'intégration avec Power BI
  • Améliorer les performances des requêtes avec des vues matérialisées et la mise en cache des résultats
  • Visualiser les données avec SQL sans serveur et créez un rapport Power BI

A l'issue de ce module, les étudiants seront capables de :

  • Créez des rapports avec Power BI en utilisant son intégration avec Azure Synapse Analytics


17-Effectuer des processus d'apprentissage automatique intégrés dans Azure Synapse Analytics

Ce module explore l'expérience intégrée de bout en bout Azure Machine Learning et Azure Cognitive Services dans Azure Synapse Analytics. Vous apprendrez comment connecter un espace de travail Azure Synapse Analytics à un espace de travail Azure Machine Learning à l'aide d'un service lié, puis déclencher une expérience ML automatisée qui utilise les données d'une table Spark. Vous apprendrez également à utiliser des modèles formés à partir d'Azure Machine Learning ou d'Azure Cognitive Services pour enrichir les données d'une table de pool SQL, puis diffuser les résultats de prédiction à l'aide de Power BI.

  • Utiliser le processus d'apprentissage automatique intégré dans Azure Synapse Analytics
  • Créer un service lié Azure Machine Learning
  • Déclencher une expérience Auto ML à l'aide des données d'une table Spark
  • Enrichir les données à l'aide de modèles entraînés
  • Diffuser les résultats de prédiction à l'aide de Power BI

A l'issue de ce module, les étudiants seront capables de :

  • Utiliser le processus d'apprentissage automatique intégré dans Azure Synapse Analytics


Certification (en option) :

  • Prévoir l'achat d'un bon en supplément
  • Le passage de l'examen se fera (ultérieurement) dans un centre agréé Pearson Vue
  • L'examen (en anglais) s'effectuera en ligne


Modalités d’évaluation des acquis :

  • En cours de formation, par des études de cas ou des travaux pratiques