Big Data on AWS
(AWSBD)
Big Data sur AWS vous présente les solutions de données volumineuses basées sur le cloud et Amazon Elastic MapReduce (EMR), la plate-forme de big data AWS. Dans ce cours, nous vous montrons comment utiliser Amazon EMR pour traiter des données en utilisant le large écosystème d'outils Hadoop tels que Pig and Hive. Nous vous apprenons également à créer des environnements de données volumineuses, à travailler avec Amazon DynamoDB, Amazon Redshift et Amazon Kinesis, et à tirer parti des meilleures pratiques pour concevoir des environnements Big Data pour la sécurité et la rentabilité.
Conditions préalables :
Connaissance de base des technologies Big Data, y compris Apache Hadoop et HDFS
Connaissance des technologies Big Data telles que Pig, Hive et MapReduce utile mais pas obligatoire
Connaissance pratique des principaux services AWS et de l'implémentation du cloud public
D’avoir suivi préalablement le cours AWS Essentials ou d’avoir une expérience équivalente
Compréhension de base de l'entreposage de données, des systèmes de bases de données relationnelles et de la conception de bases de données
Ce cours est destiné aux personnes responsables de la conception et de la mise en œuvre de solutions Big Data, à savoir les Architectes Solutions et les Administrateurs SysOps, Data Scientists et Data Analysts intéressés d’apprendre davantage sur les solutions Big Data sur AWS
Aperçu du cours de formation / contenu :
Comprendre Apache Hadoop dans le contexte d'Amazon EMR
Comprendre l'architecture d'un cluster Amazon EMR
Lancer un cluster Amazon EMR à l'aide d'un type d'instance Amazon Machine Image et Amazon EC2 approprié
Choisir les options de stockage de données AWS appropriées à utiliser avec Amazon EMR
Connaître les options d'intégration, de transfert et de compression des données à utiliser avec Amazon EMR
Utiliser des cadres de programmation communs disponibles pour Amazon EMR, y compris Hive, Pig et Streaming
Travailler avec Amazon Redshift pour implémenter une solution Big Data
Tirer parti du logiciel de visualisation Big Data
Choisir les options de sécurité appropriées pour Amazon EMR et vos données
Effectuer une analyse de données en mémoire avec Spark et Shark sur Amazon EMR
Choisir les options appropriées pour gérer votre environnement Amazon EMR de manière rentable
Comprendre les avantages de l'utilisation d'Amazon Kinesis pour le Big Data
Ce cours couvrira les concepts suivants :
Jour 1 : Présentation du Big Data, Apache Hadoop et des avantages d'Amazon EMR
Amazon EMR Architecture
Utilisation d'Amazon EMR
Lancement et utilisation d'un cluster Amazon EMR
Les cadres de programmation Hadoop
Jour 2 : Utilisation de Hive pour les analyses publicitaires
Utilisation de Streaming for Life Sciences Analytics
Vue d'ensemble Spark et Shark pour les analyses en mémoire
Utilisation de Spark et Shark pour les analyses en mémoire
Gestion des coûts Amazon EMR
Présentation de la sécurité Amazon EMR
Ingestion de données, transfert et compression
Utilisation d'Amazon Kinesis pour le traitement de Big Data en temps réel
Jour 3 : Utilisation d'Amazon Kinesis et d'Amazon EMR pour diffuser et traiter des données volumineuses
Options de stockage de données AWS
Utilisation de DynamoDB avec Amazon EMR
Vue d'ensemble d’Amazon Redshift et Big Data
Utilisation d'Amazon Redshift pour Bi