Docker, Kubernetes, Openstack, Terraform, DevOps ...

Débutant 2 jours (14 h) 1800 € ht

Réf : DATA1

Formation Spark pour Data Ingénieur

Apprenez à manipuler l'API Spark et à vous familiariser avec l'environnement de base du Data Ingénieur

Cette formation s’adresse aux Data Ingénieurs en sortie d’école, ceux souhaitant se reconvertir et plus globalement les débutants souhaitant avoir un premier up and running rapide autour d’Apache Spark.

Programme

Fondamentaux des Systèmes Distribués - Hadoop
  • Introduction aux Systèmes et Calculs Distribués.
  • Stockage Distribué dans Hadoop avec HDFS
  • Calcul Distribué avec YARN et gestion des ressources.
API Spark Low Level – Les RDD
  • Découvrir le concept de distribution de calculs avec les RDD.
  • Manipuler vos premiers fichiers à l’aide des RDD.
  • Les opérations dans Spark : Prise en main des Transformations et des Actions dans Spark.
  • L’algorithme Map Reduce appliqué à Spark.
  • Les aggrégations avec Spark SQL.
  • Les RDD en environnement distribué.
  • TP1
API Spark High Level – Spark SQL
  • Connaître les différences entre les RDD et les DataFrames / DataSets.
  • Différences entre les DataFrames et DataSets : pourquoi faut-il utiliser un langage typé ?
  • Manipuler les DataFrames et les DataSets.
  • La gestion des schémas dans Spark.
  • DataFrames et DataSets dans un environnement distribué.
  • Les agrégations avec Spark SQL.
  • Découverte et manipulation de la SparkUI.
  • TP2
Structuration des données avec Spark
  • Prise en main de datasets d’exemples complexes et leur structuration.
  • Utilisation des UDFs dans Spark pour les cas isolés.
  • Validation des données et gestion ligne par ligne des données.
  • La Data Skew dans Spark et ses remèdes.
API Streaming Spark Streaming
  • Utilisation des APIs Low Level et High Level de Spark pour du Streaming.
  • Micro-Batch Streaming vs Event-Based Streaming.
  • Mise en place d’un flux streaming avec Apache Kafka et Spark Streaming.
Télécharger l'article au format PDF