Cours "Data Analyst" - cours 96 000 roubles. de Yandex Workshop, formation 7 mois, date 7 décembre 2023.
Miscellanea / / December 02, 2023
Un analyste de données extrait un sens des chiffres et des valeurs: il voit les tendances, prédit les événements et aide une entreprise à comprendre ses clients, à optimiser ses processus et à se développer.
Le marché a besoin de spécialistes capables d’utiliser les données de manière utile. Une étude de la société de personnel Ancor de septembre 2022 a montré que 45 % des entreprises russes recherchent des analystes pour rejoindre leur équipe.
Compétences que vous apprendrez pendant le cours
Titre d'emploi
Analyste, Analyste de données, Analyste de données
Opportunités de développement: Analyste de produits, Analyste marketing, Analyste BI, Spécialiste en science des données
Voici les technologies et outils que vous utiliserez :
Python
Carnet Jupyter
SQL
PostgreSQL
Tableau
Tests A/B
Commencez à gagner de l'argent en analysant
Vous partirez d'un poste junior, puis vous avancerez seulement. Vous gravirez les échelons de votre carrière et gagnerez en valeur. Et un jour, il n’y aura plus de prix pour toi.
Programme complet de cours d'analyse de données
Nous le mettons régulièrement à jour pour nous assurer qu’il répond aux besoins de l’industrie et des employeurs.
En d’autres termes, vous apprenez uniquement ce qui sera certainement utile dans votre travail.
Partie gratuite - 1 semaine
Introduction gratuite: bases de Python et analyse de données
Apprenez les concepts de base de l’analyse des données et comprenez ce que font les analystes de données et les data scientists.
• Catnamycs de Moscou. Affichage des données à l'écran. Fichiers CSV. Travailler avec des tableaux. Cartes thermiques. Multiplier une colonne par un entier.
• Erreurs dans le code. Erreurs de syntaxe. Erreurs de dénomination. Erreurs lors de la division par zéro. Erreurs lors de l'importation d'un module.
• Variables et types de données. Variables. Types de données. Opérations arithmétiques avec des nombres et des chaînes.
• Comment formuler des hypothèses. Hypothèses. Cycles HADI. Pensée analytique. Lecture de graphiques.
• Ce que font les data scientists. Tâches d'analyste. Clarification des tâches. Décomposition. Étapes du projet.
• Vérification des conversions. Conversion. Exploration des données. Formation de conclusions.
• Récupération des campagnes publicitaires. Graphique à colonnes. Différence d'éléments. Indexation en colonnes.
• Apprentissage automatique et science des données. Formation en apprentissage automatique. Trouver des valeurs uniques dans les colonnes. Indexation logique. Regroupement des valeurs dans un tableau. Erreurs de prédiction.
• Projet final. Segmentation des utilisateurs.
PythonPandasErreursSeabornHypothèsesConversionVariablesTypes de donnéesHeatmaps
1 sprint 3 semaines
Python de base
Plongez plus profondément dans le langage de programmation Python et la bibliothèque Pandas.
• Variables et types de données. Langage Python. Variables. Affichage des données à l'écran. Affichage d'objets à l'écran. Gestion des erreurs, essayez...sauf l'opérateur. Types de données. Conversions de types de données.
• Lignes. Index en lignes. Coupes de lignes. Opérations sur les chaînes. Méthodes de chaînes. Formatage des chaînes, méthode format(), f-strings.
• Listes. Index dans les listes. Répertoriez les tranches. Ajout d'éléments à une liste. Suppression d'éléments de liste. Addition et multiplication de listes. • Tri des listes. Rechercher des éléments dans une liste. Diviser une chaîne en une liste de chaînes, concaténer une liste de chaînes en une chaîne.
• Boucle For. Cycles. Énumération des éléments. Itération sur les indices d'éléments. Traitement des éléments de la liste à l'aide de boucles: trouver la somme et le produit des éléments.
• Listes imbriquées. Parcourir des listes imbriquées avec des valeurs de comptage. Ajout d'éléments aux listes imbriquées. Tri des listes imbriquées.
• Opérateur conditionnel. Boucle while. Type de données booléen. Valeurs booléennes. Expressions logiques. Expressions logiques composées. Instruction conditionnelle if...elif...else. Branchement. Filtrage des listes à l'aide d'un opérateur conditionnel. Boucle while.
• Les fonctions. Attribution des fonctions. Paramètres et arguments. Paramètres avec valeurs par défaut. Arguments positionnels et nommés. Renvoyer un résultat d'une fonction.
• Dictionnaires. Clés et valeurs. Recherche d'une valeur par clé. Ajout d'éléments au dictionnaire. Liste de dictionnaires. Belle sortie de dictionnaires.
• Bibliothèque Pandas. Lecture de fichiers csv. Trame de données. Constructeur de trame de données. Impression des première et dernière lignes d'un dataframe. Indexation dans des dataframes. Indexation sur les colonnes Séries.
• Prétraitement des données. Le principe GIGO. Renommer les colonnes du dataframe. Gestion des valeurs manquantes. Gestion des doublons explicites et implicites.
• Analyse des données et présentation des résultats. Regroupement de données. Tri des données. Bases des statistiques descriptives.
• Jupyter Notebook: un bloc-notes dans une cellule. Interface du bloc-notes Jupyter. Raccourcis du bloc-notes Jupyter.
BouclesPythonPandasStringsListsFunctionsDictionariesDataFrameVariablesDataTypesInstruction conditionnelle
Projet
Comparez les données utilisateur de Yandex Music par ville et jour de la semaine.
2 sprints 2 semaines
Prétraitement des données
Apprenez à nettoyer les données des valeurs aberrantes, des omissions et des doublons, ainsi qu'à convertir différents formats de données.
• Travailler avec des passes. Conversion. Biscuits. Variables catégorielles et quantitatives. Gestion des lacunes dans les variables catégorielles. Gérer les lacunes des variables quantitatives. Gérer les lacunes des variables quantitatives par catégorie.
• Modification des types de données. Lecture de fichiers Excel. Convertir la série en type numérique. Module numérique, méthode abs(). Travailler avec la date et l'heure. Gestion des erreurs, essayez...sauf l'opérateur. Fusion de dataframes, méthode merge(). Tableaux croisés dynamiques.
• Rechercher des doublons. Recherchez les doublons, en respectant la casse.
• Catégorisation des données. Décomposition des tableaux. Catégorisation par plages numériques. Classez en fonction de plusieurs valeurs par ligne.
• Pensée systématique et critique dans le travail d'analyste. Pensée systémique. Causes des erreurs de données. Esprit critique.
PythonPandasGestion des écartsTraitement des donnéesTraitement en doubleCatégorisation des données
Projet
Analysez les données sur les clients de la banque et déterminez la part des clients solvables.
3 sprints 2 semaines
L'analyse exploratoire des données
Apprenez les bases des probabilités et des statistiques. Utilisez-les pour explorer les propriétés de base des données, en recherchant des modèles, des distributions et des anomalies. Apprenez à connaître la bibliothèque Matplotlib. Dessinez des diagrammes et entraînez-vous à analyser des graphiques.
• Premiers graphiques et conclusions. Utilisation de tableaux croisés dynamiques. Diagramme à bandes. Distributions. Diagramme de portée.
• Etude de tranches de données. La méthode query(). Travailler avec la date et l'heure. Tracer des graphiques à l'aide de la méthode plot(). Le rasoir d'Occam.
• Travailler avec plusieurs sources de données. Tranche de données basée sur des objets externes. Ajout de nouvelles colonnes à un dataframe. Ajout de données à partir d'autres dataframes. Renommer les colonnes. Combinaison de tables à l'aide des méthodes merge() et join().
• Relations entre les données. Nuage de points. Corrélation des variables. Matrice de nuages de points.
• Validation des résultats. Consolidation des groupes. Diviser les données en groupes.
PythonPandasMatplotlibHistogrammesTranches de donnéesAnalyse des donnéesScatterplotScatterplotVisualisation des donnéesStatistiques descriptives
Projet
Explorez les archives des annonces de vente de biens immobiliers à Saint-Pétersbourg et dans la région de Léningrad.
4 sprints 3 semaines
Analyse des données statistiques
Apprenez à analyser les relations dans les données à l'aide de méthodes statistiques. Découvrez ce que sont la signification statistique et les hypothèses.
• Combinatoire. Combinaisons. Règle de multiplication. Réarrangements. Nombre de permutations. Placements. Nombre d'emplacements. Combinaisons. Nombre de combinaisons.
• Théorie des probabilités. Expérience. Espace de probabilité. Événements. Probabilité. Des événements qui se croisent et s’excluent mutuellement. Diagramme d'Euler-Venn. Loi des grands nombres.
• Statistiques descriptives. Variables catégorielles et quantitatives. Mode et médiane. Valeur moyenne. Dispersion. Écart-type. Quartiles et centiles. Diagramme de portée. Graphique à colonnes. Densité de fréquence. Diagramme à bandes.
• Variables aléatoires. Variable aléatoire discrète. Distribution de probabilité pour une variable aléatoire discrète. Fonction cumulative (fonction de distribution) d'une variable aléatoire discrète. Espérance mathématique d'une variable aléatoire discrète. Dispersion d'une variable aléatoire discrète.
• Distributions. L'expérience de Bernoulli. Expérience binomiale. Distribution binomiale. Distribution uniforme et continue. Distribution normale. Distribution normale standard. CDF et PPF pour une distribution normale. Distribution de Poisson. Rapprochement d'une distribution par une autre.
• Tester des hypothèses. Population générale. Échantillon. Distribution d'échantillonnage. Théorème central limite. Hypothèses unilatérales et bilatérales. Valeur P. Tester des hypothèses unilatérales et bilatérales pour un échantillon. Tester l'hypothèse de l'égalité des moyens de deux populations générales. Test de l'hypothèse d'égalité des moyennes pour des échantillons dépendants.
ScipyNumpyPythonPandasMatplotlibCombinatoricsDistributionsTests d'hypothèsesThéorie des probabilités
Projet
Testez les hypothèses du service de location de scooters pour vous aider à développer votre entreprise.
Sprint supplémentaire
Théorie des probabilités
Mémoriser ou reconnaître les termes de base de la théorie des probabilités: événements indépendants, opposés, incompatibles, etc. À l’aide d’exemples simples et de problèmes amusants, vous vous entraînerez à travailler avec des chiffres et à construire la logique des solutions.
Il s'agit d'un sprint facultatif. Cela signifie que chaque étudiant choisit lui-même l'une des options :
• Maîtrisez un sprint supplémentaire de 10 courtes leçons, révisez la théorie et résolvez des problèmes.
• Ouvrir uniquement le bloc avec les tâches d'entretien, rappeler la pratique sans théorie.
• Sautez complètement le cours ou revenez-y lorsque vous en avez le temps et le besoin.
PythonÉvénementsProbabilitéThéorème de BayesVariables aléatoiresThéorie des probabilitésAnalyse des données statistiques
5 sprints 1 semaine
Projet final du premier module
Apprenez à mener des recherches de données préliminaires et à formuler et tester des hypothèses.
ScipyNumpyPythonPandasMatplotlibAnalyse des donnéesTests d'hypothèsesTraitement des données
Projet
Recherchez des modèles dans les données de ventes de jeux.
6 sprints 2 semaines
SQL de base
Apprenez les bases du langage de requête structuré SQL et de l'algèbre relationnelle pour travailler avec des bases de données. Familiarisez-vous avec les fonctionnalités de travail dans PostgreSQL, un système de gestion de base de données (SGBD) populaire. Apprenez à écrire des requêtes de différents niveaux de complexité et à traduire les problèmes métier en SQL. Vous travaillerez avec une base de données d'une boutique en ligne spécialisée dans les films et la musique.
• Introduction aux bases de données. Systèmes de gestion de bases de données (SGBD). Langage SQL. Requêtes SQL. Formatage des requêtes SQL.
• Tranches de données en SQL. Types de données dans PostgreSQL. Conversion de types de données. Clause OÙ. Opérateurs logiques. Tranches de données. Opérateurs DANS, COMME, ENTRE. Travailler avec la date et l'heure. Gestion des valeurs manquantes. Construction CASE conditionnelle.
• Fonctions d'agrégation. Regroupement et tri des données. Opérations mathématiques. Fonctions d'agrégation. Regroupement de données. Tri des données. Filtrage par données agrégées, opérateur HAVING.
• Relations entre les tables. Types de jointures de tables. Diagrammes ER. Renommer les champs et les tables. Alias. Fusion de tableaux. Types de jointures: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN. Types alternatifs de syndicats UNION et UNION ALL.
• Sous-requêtes et expressions de table communes. Sous-requêtes. Sous-requêtes dans FROM. Sous-requêtes dans OÙ. Une combinaison de jointures et de sous-requêtes. Expressions de table communes (CTE). Variabilité des demandes.
SQLDBMSPostgreSQLSous-requêtesBases de donnéesRequêtes SQLFiltrage des donnéesTri des donnéesRegroupement des donnéesJoindre des tablesExpressions de table communes
Projet
Vous écrirez une série de requêtes de complexité variable dans une base de données qui stocke des données sur les investisseurs en capital-risque, les startups et leurs investissements.
7 sprints 3 semaines
Analyse des indicateurs métiers
Découvrez quelles sont les mesures en affaires. Apprenez à utiliser les outils d'analyse des données en entreprise: analyse de cohorte, entonnoir de vente et économie unitaire.
• Métriques et entonnoirs. Conversion. Entonnoirs. Entonnoir marketing. Impressions. Clics. CTR. Entonnoir de produits.
• Analyse de cohorte. Profil de l'utilisateur. taux de rétention. Taux de désabonnement. Horizon d’analyse. Visualisation de l'analyse de cohorte. Analyse de rétention de cohortes aléatoires. Conversion dans l'analyse de cohorte. Calcul de métriques en Python.
• Économie de l'unité. Métriques LTV, CAC, ROI. ARPU, ARPPU. Calcul de métriques en Python. Visualisation avancée des métriques. Paramètre Sharey. Moyenne mobile.
• Métriques personnalisées. Évaluation de l'activité des utilisateurs. Séance utilisateur. Enquête sur les anomalies.
MétriquesEntonnoirsConversionÉconomie des unitésAnalyse de cohorteMétriques de produitsMétriques de marketing
Projet
Sur la base des données, comprendre le comportement des utilisateurs et analyser la rentabilité des clients et le retour sur investissement publicitaire pour faire des recommandations au service marketing.
8 sprints 2 semaines
SQL avancé
Vous suivrez un cours supplémentaire sur l'utilisation des bases de données et vous rapprocherez encore plus des affaires. À l'aide du langage SQL, vous analyserez le calcul des principales métriques métiers que vous avez connues dans le sprint « Business Indicators Analysis ». Pensez à travailler avec un outil complexe comme les fonctions de fenêtre. Apprenez à modifier le contenu des bases de données localement, sans simulateur, à l'aide de programmes clients et de bibliothèques spéciaux pour Python.
• Calcul d'indicateurs métiers. Schéma de données. Conversion. LTV. ARPU. ARPPU. Retour sur investissement. Calcul utilisant SQL.
• Fonctions de fenêtre d'agrégation. SURexpression. Paramètre de fenêtre PARTITION BY.
• Fonctions de classement des fenêtres. Fonctions de classement. Opérateur ORDER BY de la fenêtre. ROW_NUMBER(). RANG(). DENSE_RANK(). NTILE(). Opérateurs de fenêtres ainsi que fonctions de classement.
• Fonctions de décalage de fenêtre. Valeurs cumulées. Fonctions de décalage. PLOMB(). DÉCALAGE(). Fonctions de fenêtre et alias.
• Analyse de cohorte. Taux de rétention, taux de désabonnement. LTV.
• Installation et configuration de la base de données et du client de base de données. Client de base de données. Installation de PostgreSQL. Installation de DBeaver. Interface DBeaver. Création de base de données. Déploiement d'un dump de base de données. Téléchargement des résultats de la requête. Présentation des résultats de la requête.
SQLDBMSMetricsPostgreSQLBases de donnéesRequêtes SQLFonctions de fenêtreAnalyse de cohorte
Projet
À l'aide de Python et SQL, connectez-vous à une base de données, calculez et visualisez des métriques clés dans un système de service de programmation Q&A.
9 sprints 2 semaines
Prise de décision en entreprise
Vous apprendrez ce qu’est l’A/B testing et comprendrez dans quels cas il est utilisé. Apprenez à concevoir des tests A/B et à évaluer leurs résultats.
• Fondamentaux des tests d'hypothèses en entreprise. Indicateurs de pointe. Bases d'expérimentations. Génération d'hypothèses. Priorisation des métriques. Choisir une méthode pour mener une expérience. Méthodes qualitatives pour tester des hypothèses. Méthodes quantitatives pour tester des hypothèses. Avantages et inconvénients des tests A/B.
• Priorisation des hypothèses. Cadre RIZ. Atteindre le paramètre. Paramètre d'impact. Paramètre de confiance. Paramètre d’efforts.
• Préparation à la réalisation d'un test A/B. Test A/A. Erreurs de type I et II. Puissance du test statistique. Importance du test statistique. Comparaisons multiples, méthodes pour réduire le risque d'erreur. Calcul de la taille de l'échantillon et de la durée d'un test A/B. Analyse graphique des métriques.
• Analyse des résultats des tests A/B. Test de l'hypothèse d'égalité des parts. Test de Shapiro-Wilk pour tester la normalité des données. Tests statistiques non paramétriques. Test de Mann-Whitney. Stabilité des métriques cumulées. Analyse des valeurs aberrantes et des salves.
• Algorithmes comportementaux. Faits, émotions, évaluations. Expliquez votre point de vue.
A/B testingPriorisation des hypothèsesPréparer l'A/B testingAnalyse des résultats de l'A/B testingAnalyse des résultats de l'A/B testing
Projet
Analysez les résultats des tests A/B dans une grande boutique en ligne.
10 sprints 1 semaine
Projet final du deuxième module
Apprenez à tester des hypothèses statistiques à l'aide de tests A/B et à préparer des conclusions et des recommandations sous forme de rapport analytique.
Entonnoir de venteTests A/BTraitement des donnéesAnalyse des données de recherche
Projet
Explorez l'entonnoir de vente et analysez les résultats des tests A/B dans l'application mobile.
11 sprints 2 semaines
Comment raconter une histoire avec des données
Vous apprendrez à présenter correctement les résultats de votre recherche à l'aide de graphiques, des chiffres les plus importants et de leur interprétation correcte. Apprenez à connaître les bibliothèques Seaborn et Plotly.
• À qui, comment, quoi et pourquoi le dire. Présentation du résultat de la recherche. Le public cible du narrateur. Quoi et pourquoi dire à un analyste de données.
• Bibliothèque Seaborn. La bibliothèque Seaborn comme extension de la bibliothèque Matplotlib. méthode jointplot(). Gammes de couleurs. Styles de graphiques. Visualisation des distributions.
• Bibliothèque Plotly. Graphiques interactifs. Graphique linéaire. Graphique à colonnes. Diagramme circulaire. Graphique en entonnoir.
• Visualisation de données en géoanalyse. Géoanalyse. Folium de la bibliothèque. Affichage de la carte. Définition de marqueurs avec des coordonnées spécifiées. Création de groupes de points. Icônes personnalisées pour les marqueurs. Horoplet.
• Préparer une présentation. Conclusions basées sur l'étude. Saisonnalité et facteurs externes. Valeurs absolues et relatives. Le paradoxe de Simpson. Principes de construction de présentations. Rapports dans Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPrésentationGeoanalyticsVisualisation des données
Projet
Préparez une étude de marché basée sur des données ouvertes sur les établissements publics de restauration à Moscou, visualisez les données obtenues.
12 sprints 2 semaines
Créer des tableaux de bord dans Tableau
Dans ce sprint, vous travaillerez avec le système Tableau BI. Apprenez à vous connecter aux données et à les modifier, à créer différents types de graphiques, à assembler des tableaux de bord et des présentations.
• Bases du travail avec Tableau. Systèmes BI. Tableau. Création d'un document. Enregistrement du document. Publication du document.
• Travailler avec des sources de données. Les sources de données. Fusion de données. Méthode relationnelle. Méthode de jointure. Méthode de mélange. Méthode syndicale. Modification du format du tableau.
• Types de données. Types de données de base. Des mesures. Mesures. Travailler avec la date et l'heure. Ensembles. Groupes. Possibilités. Changer le format des variables. Variables Noms des mesures, valeurs des mesures, nombre.
• Tableaux et calculs. Interface d'édition de feuille. Tableaux croisés dynamiques. Champs calculés. Expressions de niveau de détail.
• Filtres et tri. Mesures de tri. Dimensions de tri. Tris imbriqués. Tri à l'aide d'un paramètre. Filtres.
• Visualisations. Contrôles de visualisation. Cartes thermiques. Camemberts. Graphiques à colonnes. Histogrammes. Diagrammes de portée. Diagramme de dispersion. Graphiques linéaires. Graphiques combinés. Graphiques en zones.
• Visualisations spéciales et info-bulles. Cartes. Table des caractères. Graphique à bulles. Carte des arbres. Diagrammes de vues circulaires. Diagrammes à puces. Diagrammes de Gantt. Mesurez les noms et mesurez les valeurs dans les visualisations. Ingénierie inverse. Info-bulles. Info-bulles avec visualisations. Valeurs seuils sur les graphiques. Outils analytiques dans Custom.
• Présentations. Options supplémentaires. Etude de paramètres typiques. Création d'une présentation.
• Tableaux de bord. Chargement et préparation des données. Préparation des visualisations. Assemblage du tableau de bord. Actions. Démonstration du tableau de bord. Publication d'un tableau de bord.
TableauDashboardsBI-toolsBI-toolsVisualisation des données
Projet
Recherchez l'historique des conférences TED et créez un tableau de bord dans Tableau basé sur les données obtenues.
Sprint supplémentaire
Bases de l'apprentissage automatique
Familiarisez-vous avec les bases de l'apprentissage automatique et découvrez les principales tâches de l'apprentissage automatique en entreprise.
PythonPandasSklearnApprentissage automatiqueTâches d'apprentissage automatiqueAlgorithmes d'apprentissage automatique
Sprint supplémentaire
Pratiquez Python
Vous suivrez plusieurs cours en laboratoire avec des tâches supplémentaires dans le langage de programmation Python. Vous apprendrez également à extraire des données à partir de ressources Web.
Vous serez:
• dans la structure des pages HTML et le fonctionnement des requêtes GET,
• apprendre à écrire des expressions régulières simples,
• connaître l'API et JSON,
• effectuer plusieurs requêtes auprès des sites et collecter des données.
JSONPythonREST APIWeb scraping
13 sprints 3 semaines
Projet de diplôme
Dans le dernier projet, confirmez que vous maîtrisez un nouveau métier. Clarifiez la tâche du client et passez par toutes les étapes d’analyse des données. Maintenant, il n'y a plus de cours ni de devoirs - tout se passe comme dans un vrai travail.
Le sprint final comprend le travail de projet, les tests A/B et les tâches SQL, ainsi qu'une tâche supplémentaire. Le projet contient un énoncé du problème, le résultat attendu, un ensemble de données et leur description.
La tâche concerne l’un des cinq domaines d’activité :
• banques,
• vente au détail,
• Jeux,
• Applications mobiles,
• commerce électronique.
Il n'y aura pas de description habituelle des étapes du projet. Vous les travaillerez vous-même.
SQ LPython PandasTableau Tableaux de bord Postgre Décomposition SQL Tests A/B