L'apprentissage automatique en pratique - cours 41 500 roubles. du Centre de Formation IBS, formation 24 heures, Date 26 novembre 2023.
Miscellanea / / December 02, 2023
Le cours est construit autour de plusieurs cas pratiques contenant des tableaux avec des données initiales.
Pour chaque cas, nous parcourons le cycle de vie complet d’un projet de machine learning :
recherche, nettoyage et préparation des données,
choisir une méthode d'entraînement adaptée à la tâche (régression linéaire pour la régression, forêt aléatoire pour la classification, K-means et DBSCAN pour le clustering),
une formation selon la méthode choisie,
évaluation des résultats,
optimisation du modèle,
présentation du résultat au client.
Au cours de la partie discussion du cours, nous discutons des problèmes pratiques auxquels sont confrontés les étudiants et qui peuvent être résolus en utilisant les méthodes discutées.
Sujets couverts:
1. Révision de la tâche (théorie – 1 heure)
Quels problèmes sont bien résolus par l’apprentissage automatique et quels problèmes tentent-ils de résoudre ?
Que se passe-t-il si, au lieu d'un Data Scientist, vous embauchez un non-spécialiste dans le domaine (juste un développeur/analyste/manager) dans l'espoir qu'il apprendra au cours du processus.
2. Préparation, nettoyage, recherche de données (théorie – 1 heure, pratique – 1 heure)
Comment comprendre les données commerciales sources (et généralement y détecter tout ordre).
Séquence de traitement.
Qu'est-ce qui peut et doit être délégué aux analystes de domaine, et ce qu'il est préférable de faire par le Data Scientist lui-même.
Priorités pour résoudre un problème spécifique.
3. Classificateurs et régresseurs (théorie – 2 heures, pratique – 2 heures)
Section pratique - tâches bien formalisées avec des données préparées.
Différence entre tâches (classification binaire/non binaire/probabiliste, régression), redistribution des tâches entre classes.
Exemples de classification de problèmes pratiques.
4. Clustering (théorie – 1 heure, pratique – 2 heures)
Où et comment réaliser le clustering: recherche de données, vérification de l'énoncé du problème, vérification des résultats.
Quels cas peuvent être réduits au clustering.
5. Évaluation du modèle (théorie – 1 heure, pratique – 1 heure)
Mesures commerciales et mesures techniques.
Métriques pour les problèmes de classification et de régression, matrice d'erreurs.
Mesures internes et externes de la qualité du clustering.
Validation croisée.
Évaluation de la reconversion.
6. Optimisation (théorie – 5 heures, pratique – 3 heures)
Qu'est-ce qui rend un modèle meilleur qu'un autre: paramètres, fonctionnalités, ensembles.
Gestion des paramètres.
Pratique de sélection des fonctionnalités.
Revue des outils pour trouver les meilleurs paramètres, fonctionnalités et méthodes.
7. Graphiques, rapports, travail avec des tâches en direct (théorie – 2 heures, pratique – 2 heures)
Comment expliquer clairement ce qui se passe: à vous-même, à l'équipe, au client.
De plus belles réponses à des questions dénuées de sens.
Comment présenter trois téraoctets de résultats sur une seule diapositive.
Tests semi-automatiques, quels points de contrôle des processus sont réellement nécessaires.
Des tâches en direct à un processus R&D complet (« R&D en pratique ») - analyse et analyse des tâches du public.