Modèles linéaires généralisés - cours 3600 frotter. de l'Enseignement Ouvert, formation 3 semaines, environ 6 heures par semaine, Date 29 novembre 2023.
Miscellanea / / December 01, 2023
L'une des conditions d'applicabilité des modèles linéaires conventionnels est l'indépendance des observations les unes par rapport aux autres, sur la base de laquelle le modèle est sélectionné. Cependant, dans la pratique, il existe souvent des situations où la conception de la collecte de matériaux est telle que la violation de cette condition est inévitable. Imaginez que vous décidiez de créer un modèle décrivant la relation entre les performances en éducation physique et les résultats aux tests de QI des élèves. Pour résoudre ce problème, vous avez réalisé de nombreux prélèvements auprès de plusieurs institutions. Est-il possible de combiner ces données en une seule analyse, construite selon le schéma traditionnel? Bien sûr que non. Les étudiants de chaque université peuvent se ressembler à certains égards. Même la nature de la relation entre les quantités étudiées peut être quelque peu différente. Ce type de données, dans lesquelles il existe des corrélations intragroupes, doivent être analysées à l'aide de modèles mixtes linéaires. Nous montrerons que certains prédicteurs devraient être inclus dans le modèle en tant que « facteurs aléatoires ». Vous apprendrez que les facteurs aléatoires peuvent être hiérarchiquement subordonnés. Nous verrons comment de tels modèles mixtes peuvent être construits pour des variables dépendantes qui suivent différents types de distributions. De plus, nous montrerons que la partie aléatoire du modèle peut être encore plus complexe: elle peut avoir une composante qui modélise le comportement de la variance en réponse à l'influence d'une covariable. À la fin du cours, vous trouverez un projet dans lequel vous pourrez vous entraîner à créer des modèles mixtes en choisissant l'un des nombreux ensembles de données. Sur la base de l’analyse de ces données, vous pouvez créer un rapport dans la tradition d’une recherche reproductible.
Professeur agrégé, Département de zoologie des invertébrés, Faculté de biologie, Université d'État de Saint-Pétersbourg, Ph.D.
Intérêts scientifiques: structure et dynamique des communautés benthiques marines, échelles spatiales, succession, interspécifique et intraspécifique interactions biotiques, croissance et reproduction des invertébrés marins, structure démographique des populations, microévolution, biostatistique.
Le cours se compose de 4 modules :
1) Introduction aux modèles linéaires généralisés
Les modèles linéaires généralisés (GLM) permettent de modéliser le comportement de quantités qui ne suivent pas une distribution normale. Pour faciliter vos premiers pas dans le monde du GLM, nous analyserons leur structure en utilisant l'exemple du GLM pour des quantités normalement distribuées - vous pourrez ainsi faire des parallèles avec des modèles linéaires simples. Vous apprendrez ce qu'est une fonction de lien, comment fonctionne le maximum de vraisemblance et comment tester les hypothèses GLM à l'aide des tests de Wald et des tests de rapport de vraisemblance.
2) Problème de sélection de modèle
Dans ce module, nous parlerons des problèmes méthodologiques associés à la construction de modèles. Un modèle est une représentation simplifiée de la réalité, et choisir entre différentes méthodes concurrentes d’une telle simplification est une tâche fréquente pour l’analyste. Dans ce module, vous apprendrez à comparer des modèles à l'aide de critères d'information. Nous discuterons des principales options d'analyse lors du choix des modèles et parlerons des difficultés liées à la multiplicité cachée des modèles. Enfin, nous vous apprendrons à reconnaître les principaux types d’abus de sélection de modèles (data-fishing, p-hacking).
3) Modèles linéaires généralisés pour le comptage de données
Dans ce module, nous discuterons des méthodes de base pour modéliser des quantités dénombrables. Tout d’abord, nous verrons pourquoi les modèles linéaires conventionnels ne conviennent pas au comptage de données. Les propriétés des distributions dénombrables vous aideront à comprendre les différences entre les types de GLM pour les données dénombrables et les caractéristiques de leurs diagnostics. Vous verrez la fonction de lien à l'œuvre lorsque vous visualiserez les prédictions GLM à l'échelle de la fonction de lien et à l'échelle des variables de réponse.
4) Modèles linéaires généralisés à réponse binaire
Il est parfois nécessaire de simuler si un événement s'est produit ou non, si le équipe de football ou perdue, si le patient s'est rétabli ou non après le traitement, si le client s'est engagé acheter ou pas. Les modèles linéaires conventionnels ne conviennent pas à la modélisation de telles données binaires (événements à deux résultats), mais cela peut être facilement réalisé à l'aide de modèles linéaires généralisés. Dans ce module, vous apprendrez à modéliser les probabilités d'événements en les représentant sous forme de probabilités. Nous verrons comment fonctionne la fonction de lien logit et comment les coefficients GLM sont interprétés lorsqu'elle est utilisée. Enfin, vous pourrez vous entraîner à analyser des modèles linéaires généralisés avec différentes distributions en réalisant un projet d'analyse de données. Les résultats de cette analyse devront être présentés sous forme de rapport au format HTML, rédigé en utilisant rmarkdown/knitr.
• Découvrez quelles sont les compétences nécessaires pour débuter dans l'analyse et la science des données. • Apprenez à utiliser Excel, SQL, Power BI, Google Data Studio pour travailler avec. données et écrivez votre premier code en Python• Obtenez un guide étape par étape et apprenez comment entrer dans le domaine de la science des données et choisir un rôle dans la science des données
4,4
1 490 ₽