Docker, Kubernetes, Openstack, Terraform, DevOps ...

Avancé 3 jours (21 h) 3000 ht

Réf : DATA3

Formation pour Data Ingénieur Cloud AWS

Apprenez à mettre en place une pipeline de données de bout en bout sur le cloud AWS

Cette formation s’adresse aux Data Ingénieurs confirmés ayant déjà de l’expérience dans un environnement data On-Premise (MapR, Cloudera ou Hortonworks), ou ayant une première expérience avec AWS et souhaitant l’approfondir.

Programme

Fondamentaux des Systèmes Distribués - Hadoop
  • Introduction aux Systèmes et Calculs Distribués.
  • Stockage Distribué dans Hadoop avec HDFS
  • Calcul Distribué avec YARN et gestion des ressources.
Elastic MapReduce
  • Découvrir Hadoop à travers le service EMR de AWS.
  • Mise en place d’un Cluster EMR, choix des machines et pricing.
  • Savoir sizer le Cluster EMR dépendamment du volume de données et du workload.
  • Découverte des services accompagnant EMR.
  • EMR vs Glue pour les jobs Spark.
  • Lancer un Cluster EMR grâce à l’API Boto3 et Lambda.
  • Limites d'EMR.
  • Les bonnes pratiques pour réussir son utilisation du service EMR.
Ingestion des Données – Kinesis et Kafka
  • Découverte des services Kinesis Data Streams et Firehose
  • Découverte du service Managé Kafka de AWS.
  • MSK vs Kinesis.
  • Ingestion des données en Batch.
  • Ingestion des données en Streaming.
Stockage des données – Datalake dans AWS
  • Utilisation du Stockage Objet – S3 et ses variantes.
  • Mise en place d’un Datalake sur S3 – Les bonnes pratiques et les erreurs à éviter.
  • Structuration du Datalake sur S3 – Données et Métadonnées.
  • Les types de fichiers – ORC, Parquet, Avro, CSV ou JSON ?
Exposition des Données et Gestion du Data Catalog
  • Découvrir AWS Athena pour analyser les données stockées sur S3.
  • Configuration d'Athena et gestion des droits avec IAM.
  • Découvrir AWS Redshift pour analyser les données de son Datalake.
  • Mise en place d’un Cluster Redshift.
  • Connecter Redshift ou Athena à son outil de visualisation préféré !
Ordonnancement des Workflows
  • Utilisation des Step Functions.
  • Utilisation des Fonctions Lambdas.
  • Aller plus loin et devenir un pro : Utilisation de Apache Airflow.
    • Mise en place de Apache Airflow sur AWS.
    • Écriture de vos premiers Dags pour l’ordonnancement de votre Data Pipeline.
Cas pratique de mise en place d’une Datapipeline de bout en bout sur AWS.
Télécharger l'article au format PDF