====== Régression avancée ====== ==== Cours ==== * {{:members:cambroise:teaching:regressionlineairemultiple.pdf| Modèle linéaire}} * {{:members:cambroise:teaching:glm.pdf| Modèle linéaire généralisé}} * {{:members:cambroise:teaching:modelesmixtes.pdf| Modèle mixte}} * {{:members:cambroise:teaching:modelesadditifs.pdf| Modèles additifs}} ==== Projet ==== Plus qu'un projet le sujet de l'année se décompose en une série d'exercices disponible sur la page [[:members:cambroise:teaching:projet2015 |]] ==== Travaux dirigés ==== *{{:members:cambroise:teaching:tdenonces.pdf| énoncés de TD et projet}} *{{:members:cambroise:teaching:tdpoly.pdf | Corrections des TD}} * {{:members:jchiquet:teachings:reg_multi.r.pdf| code R TD 1}} * {{:members:jchiquet:teachings:reg_logit.r.pdf| code R TD 2}} A propos des contrastes: une manière de comprendre le recodage des variables qualitatives engendré par un contraste, il est possible d'utiliser l'instruction model.matrix(model), qui montre la matrice de design X utiliser pour faire la régression. Dans une régression logistique, l'exponentiel de l'intercept peut s'interpréter comme l'odd ratio P(Y)/(1-P(Y)), c'est à dire rapport de proportion hors tout effet fixe X observé. Dans le formalisme R, Y~X1+X2 - 1 permet de faire une régression sans intercept. Quelques jeux de données issus de packages R: * {{:members:cambroise:teaching:gavote.dat|Vote Gore/Bush en Géorgie}} * {{:members:cambroise:teaching:esoph.dat| Cancer de l'œsophage }} * {{:members:cambroise:teaching:uswages.dat| Salaires}} * {{:members:cambroise:teaching:kyphosis.dat| Kyphosis}} * {{:members:cambroise:teaching:pima.dat| Diabète des Pimas}} === Partiel === * {{:members:cambroise:teaching:finalensiie2011.pdf| Examen 2011}} ==== Livres de référence disponible sur le web ==== De nos jours, le problème n'est pas tant de trouver de l'information que de sélectionner une information de qualité. Voici quelques références qui pourront vous servir de guides fiables: * [[ http://www.maths.bath.ac.uk/~jjf23/book/ | Modèle linéaire et R]] Le livre de Faraway est extrêment pratique et donne profusion d'exemples en R * [[ http://data.princeton.edu/wws509/notes/ | Modèle linéaire Généralisé ]] * [[http://www-stat.stanford.edu/~tibs/ElemStatLearn/ | Apprentissage statistique ]] Maintenant disponible gratuitement sur le web, le livre "The elements of statistical learning" donne une vision de très nombreuses méthodes d'apprentissage et détaille donc plusieurs types de regression. * [[ http://www.math.univ-toulouse.fr/~besse/pub/Appren_stat.pdf | Modèlisation statistique et apprentissage ]] , un cours en français de Philippe Besse. ==== Guides d'introduction à R ==== * [[http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf|R pour les débutants]] de Emmanuel Paradis. Une introduction très agréable, orienté pour le traitement des données. * [[http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf|simpleR]] de John Verzani, dédié au traitement statistique. * {{members:jchiquet:teachings:commandes_r.pdf|Fiche résumé des commandes usuelles en R}} ==== Projets encadrés supplémentaires ==== === Projet de comparaison === Les méthodes de régression pénalisée (chapitre 3 du livre de Hastie et Tibshirani - shrinkage method) permettent de réaliser simultanément estimation et sélection des paramètres du modèle. - Lisez les sections du livre “The elements of statistical learning” (et tout autre source que vous jugerez intéressante) concernant le LASSO (régression linéaire pénalisée) - charger la library R ''glmnet'' - Etudiez un jeu de données en utilisant régression classique (logistique ou linéaire) et régression pénalisée (Ecrivez moi et je vous enverrai le jeu de données par retour de courrier). ====== Pièges et solutions en sélection de variables ====== Le projet vise à évaluer quelques problèmes communs de sur-apprentissage liés à la sélection de variables en apprentissage (régression et discrimination). Nous partirons des papiers de Juha Reunanen, http://users.tkk.fi/u/jsreunan/publ/ ===== Méthodes ===== Nous considérerons - les k plus proches voisins pour la classification, -la régression linéaire pour la régression. ===== Données ===== [[http://archive.ics.uci.edu/ml/datasets.html?format=&task=&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=list | dépot UCI ]] ===== Questions ===== ==== Article 1: Overfitting in Making Comparisons Between Variable Selection Methods ==== [[http://www.jmlr.org/papers/volume3/reunanen03a/reunanen03a.pdf | Article 1]] - Programmer un validation croisée à k plis (folds) qui permette d'évaluer une méthode de discrimination ou de régression. - Tester cette validation croisée pour estimer l'erreur en prédiction - Programmer et tester une méthode de sélection avant simple (SFS, Sequential Forward Selection) qui utilise l'erreur en validation croisée comme critère de sélection sur - un jeu de données lié à un problème de discrimination et sur - un jeu de données lié à un problème de régression. - Programmer et tester une sélection avant flottante (SFFS, Sequential Forward Floating Sélection) - Comparer les deux méthodes en vous inspirant des techniques utilisées dans l'article ==== Article 2: A Pitfall in Determining the Optimal Feature Subset Size ==== [[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.58.3689&rep=rep1&type=pdf | Article 2 ]] - Utiliser une double validation croisée (interne, externe) pour mettre en évidence l'optimisme de la sélection utilisant uniquement une validation simple. - Illustrer le phénomène sur un problème de régression et un problème de classification