Cours "Data Engineer" - cours 95 000 roubles. de l'atelier Yandex, formation 6,5 mois, Date: 11 décembre 2023.
Miscellanea / / November 30, 2023
Pour les développeurs en exercice
Apprenez à créer une infrastructure pour travailler avec des données et systématisez vos connaissances pour les utiliser dans votre rôle actuel ou changer d'orientation pour devenir ingénieur de données.
Pour les futurs ingénieurs de données
Structuration des connaissances: en plus d'une théorie claire, il y aura beaucoup de pratique. Vous acquerrez de l'expérience en travaillant sur des projets - cela vous aidera à constituer un portfolio, à vous démarquer des autres candidats et à ne pas vous perdre dans un travail réel.
Spécialistes et analystes en science des données
Maîtrisez des compétences qui vous aideront à accomplir vos tâches plus efficacement: créer des pipelines de données, concevoir des vitrines, créer des ETL et collecter des données brutes en gros volumes.
Mise à jour du modèle de données
1 module 2 semaines
L'entreprise continue de vous immerger dans ses processus. Les données avec lesquelles vous travailliez ont été mises à jour, vous devez donc modifier le modèle de données.
Dans ce cours vous :
- comprendre comment l'entreprise construit une base de données ;
- mettre à jour la structure de la base de données actuelle conformément aux nouvelles exigences commerciales ;
- préparer de nouvelles vitrines et métriques pour les analystes et les managers.
Technologies et outils :
- PostgreSQL
+1 projet en portefeuille
Créez un datamart avec chargement incrémentiel pour l'analyse de l'audience des boutiques en ligne.
DWH: révision du modèle de données
Module 2 3 semaines
L'entreprise grandit, l'architecture des données devient plus complexe. Une tâche vous est confiée: optimiser les processus avec des données.
Dans ce cours vous :
- réfléchir au processus de transition de l'ancien système de base de données vers le nouveau tout en minimisant les pertes commerciales (déploiement sans temps d'arrêt) ;
- préparer la migration des données ;
- prendre en compte les problèmes possibles et concevoir une option pour annuler les modifications ;
- mettre en œuvre une nouvelle structure de base de données et l'adapter aux processus existants autour des données.
Technologies et outils :
- PosgreSQL
- Python
+1 projet en portefeuille
Vous mettrez de l’ordre dans le modèle de données et migrerez les données dans le stockage actuel de la boutique en ligne.
ETL: automatisation de la préparation des données
Module 3 3 semaines
Vous savez désormais presque tout sur l’entrepôt de données de l’entreprise. Il est temps de repenser les processus ETL.
Dans ce cours vous :
- automatiser le pipeline de données ;
- configurer le téléchargement automatique des données à partir des sources ;
- apprendre à charger régulièrement et progressivement des données dans la base de données.
Technologies et outils :
- Python
- Flux d'air
- PostgreSQL
+1 projet en portefeuille
Créez un pipeline pour la réception, le traitement et le chargement automatisés des données des sources vers la vitrine pour un projet de commerce électronique.
Contrôle de la qualité des données
Module 4 1 semaine
Vous voulez être sûr que vos premiers pipelines fonctionnent correctement. La qualité des données doit être vérifiée et les pannes doivent être suivies en temps opportun.
Dans ce cours vous :
- comprendre comment utiliser les métainformations et la documentation ;
- évaluer la qualité des données.
DWH pour plusieurs sources
Module 5 2 semaines
Vous continuez à faire des recherches sur DWH, car le développement de l'entreprise et donc l'augmentation du volume de données ne peuvent être arrêtés.
Dans ce cours vous :
- construire DWH à partir de zéro sur un SGBD relationnel ;
- se familiariser avec MongoDB en tant que source de données.
Technologies et outils :
- PostgreSQL
- MongoDB
+1 projet en portefeuille
Vous concevrez et mettrez en œuvre DWH pour une startup interne.
Bases de données analytiques
Module 6 2 semaines
Il existe de plus en plus de données spécifiques non structurées qui doivent également être stockées et traitées. Par conséquent, nous vous présenterons le concept de bases de données analytiques en utilisant le SGBD Vertica comme exemple.
Dans ce cours vous :
- étudier l'organisation du stockage chez Vertica ;
- apprendre à effectuer des opérations de base avec des données dans Vertica ;
- créer un entrepôt de données simple dans Vertica.
Technologies et outils :
- Vertique
- PostgreSQL
- Flux d'air
- S3
+1 projet en portefeuille
Créez un DWH pour un système de données de messagerie à forte charge et peu structuré à l'aide de Vertica.
Organisation du lac de données
Module 7 4 semaines
Les solutions classiques ne permettent pas de gérer le volume de données. Pour faire face aux nouveaux défis commerciaux, vous construirez et alimenterez un Data Lake.
Dans ce cours vous :
- considérer l'architecture Data Lake (trans. "lac de données");
- apprendre à traiter les données dans le système MPP ;
- remplir le Data Lake avec des données provenant de sources ;
- pratiquer le traitement des données à l'aide de PySpark et Airflow.
Technologies et outils :
- Hadoop
- CarteRéduire
- HDFS
- Apache Spark (PySpark)
+1 projet en portefeuille
Créez un Data Lake et automatisez le chargement et le traitement des données.
Traitement des flux
Module 8 3 semaines
Vous avez surmonté les difficultés liées à une grande quantité de données, mais une nouvelle tâche est apparue: vous devez aider l'entreprise à prendre des décisions plus rapidement. Ici, vous aurez besoin de connaissances en traitement des données de flux. streaming).
Dans ce cours vous :
- considérer les caractéristiques du traitement des données de flux ;
- créez votre propre système de streaming ;
- créer une vitrine en utilisant des données en temps réel.
Technologies et outils :
- Kafka
- Diffusion d'étincelles
+1 projet en portefeuille
Vous développerez un système de traitement de données en temps réel.
Technologies cloud
Module 9 3 semaines
Vous pouvez désormais travailler avec de gros volumes de données et de flux. Il ne reste plus qu'à automatiser la mise à l'échelle des systèmes à l'aide des services cloud.
Dans ce cours, vous apprendrez à mettre en œuvre des solutions déjà étudiées, mais dans le cloud (en utilisant Yandex Cloud comme exemple).
Technologies et outils :
- Yandex. Nuage
- Kubernetes
- Kubectl
- Rédis
- PostgreSQL
+1 projet en portefeuille
Vous développerez une infrastructure de stockage et de traitement des données dans le cloud.
Projet de diplôme
Module 10 3 semaines
Confirmez que vous avez acquis de nouvelles compétences.
Ici, vous devrez sélectionner et mettre en œuvre de manière indépendante des solutions à un problème commercial. Cela vous aidera à renforcer une fois de plus l’utilisation des outils appris, ainsi que votre autonomie.