M2ISG
Master 2 Ingénierie Statistique et Génomique
Cursus
Semestre 1 (30 ECTS)
UE2 Méthodologie statistique ( 4ECTS)
Responsable: M.-L. Taupin , cours à Evry
Evaluation: Contrôle continu (CC), examen (E) et projet (P) Note finale = 3/4((CC+E)/2) + 1/4P Évaluation (2e session) Examen écrit
Découpage: – Cours : 6 séance(s) TP : 6 séance(s)
Objectifs Comprendre les outils statistiques spécifiques à l’analyse de survie.
Contenu: Méthodes statistiques pour l’analyse des durées de survie. Applications biomédicales.
- Introduction aux données censurées,
- Méthodes non paramétriques en analyse de survie.
– Estimation de fonction de survie,
– Test de comparaison de fonction de survie, méthodes semi paramétriques,
– Modèle de Cox,
– Estimation,
– Tests,
– Comparaison de modèles - sélection de variables,
– Validation.
Responsable: S. Plancade (CR INRA)
Évaluation (1re session) Contrôle continu (CC), examen (E) et projet (P)
Note finale = 3/4((CC+E)/2) + 1/4P
Évaluation (2e session) Examen
Découpage – Cours : 6 séance(s) + TP : 6 séance(s)
Objectifs Introduction aux méthodes d’estimation non paramétriques
Contenu – Rappels et motivations,
– Estimation d’une fonction de répartition,
– Tests de comparaison,
– Estimation d’une densité,
– Estimation d’une fonction de régression
UE3 Statistique en grande dimension (6ECTS)
Responsable : C. Giraud
Découpage: 10 séances de 3 heures
Evaluation : examen final
Curse of dimensionality, multiple testing, SVD
PCA, Model selection (1)
Model selection (2)
Convex criterion, Lasso (1)
Lasso (2), other sparsity pattern
Multivariate regression
Graphical models
UE4 Informatique pour la génomique (5 ECTS)
Responsables: Pierre Neuvial
Découpage: 5 séances de 3h
Evaluation:
1h + 1h - rappel de programmation R
1h + 3h - aspect programmation en R efficace - vectorisation - parallélisation
1h + 2h - aspect évaluation des performances et identification des facteurs limitants
1h + 2h - aspect interfaçage avec C-Rcpp
1h + 2h - aspect représentation graphique
Responsables: Y. Diaz et C. Rizzon
Découpage: 5 séances de 3h
Evaluation:
UE5 Apprentissage, Data mining (5 ECTS)
Objectifs: This course covers the skills required for a data miner to perform analysis for both pattern discovery (segmentation, association, and sequence analyses) and predictive modeling (decision tree, regression, neural network and other models). A practical knowlegde of data mining and business analytics with SAS is provided. This course is the practical and business counterpart of a “Machine Learning” course. Contenu Learn how to (with SAS – SAS Enterprise Guide & Miner) :
1. define a “data mining project” and explore data graphically
2. modify data for better analysis results
3. build and understand predictive models such as decision trees, regression models. . . and others modeling tools
4. compare and explain complex models
5. generate and use score code
6. apply association and sequence discovery to transaction data
7. use other modeling tools such as rule induction, gradient boosting, PLS regression and support vector machines.
Responsable: N. Brunel
Évaluation (1re session) Examen écrit (50%) + TP noté (50%)
Évaluation (2e session) Examen écrit
Découpage – Cours : 6 séance(s) TP : 6 séance(s) – Examen : 1 séance(s)
Objectifs Introduire les mécanismes expliquant le succès en pratique des méthodes d’exploration et de prédiction dirigées par les données (et sans modèle a priori). En particulier des méthodes couramment utilisées en entreprise (marketing, revenue management, banque et crédit, réseaux sociaux. . . ) seront étudiées. Ce cours vient appuyer le module SAS et Data Mining. Contenu Prolongement du cours optionnel Introduction à l’apprentissage statistique (S4, page 50).
1. Minimisation du risque empirique, complexité et contrôle de l’erreur, régularisation. Évaluation d’un algorithme statistique : bootstrap, validation croisée et estimation de l’erreur de prédiction.
2. Méthodes supervisées : réseaux de neurones, arbres de décision, SVR et SVM.
3. Méthodes non supervisées : réduction de dimension non linéaire et noyaux, clustering (spectral), clustering par mélanges de lois.
UE6 Applications, génétique et génomique (7 ECTS)
Responsable:
Évaluation (1re session) Évaluation (2e session)
Découpage – Cours :
Responsable:
Évaluation (1re session) Évaluation (2e session)
Découpage – Cours :
Responsable: C. Dalmasso
Évaluation (1re session)
Évaluation (2e session)
Découpage – Cours :
Semestre 2 (30 ECTS)
UE8 Méthodologies Statistiques Génomique (4ECTS)
Responsable:
Évaluation (1re session)
Évaluation (2e session)
Découpage – Cours :
Responsable: J. Chiquet,
Découpage:
Evaluation:
Introduction et motivation
Modèle graphique Gaussien (cas continu)
Réseaux bayésiens (cas discret)
Famille exponentielle et méthodes variationnelles
Recherche d’interactions
Responsable: M. Mariadassou (CR, INRA)
Découpage: 6 séances de 3h
Evaluation: CC+examen
Objectifs : le cours présente les bases mathématiques des modèles d’évolution de séquences, à la fois nucléiques et protéiques, ainsi que leurs utilisations dans des applications emblématiques de l’évolution moléculaire : calcul de distances, reconstruction d’arbres, détection de traces de sélection. Il permet notamment de comprendre les caractéristiques et les limites des différents modèles utilisés dans ce contexte. En fonctions du temps, on présentera également des extensions mathématiques motivées par des questions biologiques précises: enrichissement en AT au cours du temps, prise en compte du contexte local dans les taux de mutations.
- Références : J. Felsenstein, Inferring phylogenies. Sinauer Associates, 2004/ Z. Yang, Computational Molecular Evolution, Oxford University Press, 2006.
-1/ Applications motivantes : calcul de distances évolutives, reconstruction d’arbres phylogénétiques, cadre probabiliste pour détecter des traces de sélection.
-2/ Modèles d’évolution nucléique : Jukes-Cantor au General-Time Reversible (GTR), une famille de processus markoviens à temps continus. estimation du générateur infinitésimal et calculs de distances entre séquences.
-3/ Modèles d’évolution protéique : Générateurs empiriques, modèles de codons.
-4/ Extensions classiques : Modèles de mélanges pour capturer l’hétérogénéité entre sites et/ou la structure secondaire des protéines.
-5/ Retour aux applications : utilisation en phylogénie moléculaire et pour la détection de différents types de sélection.
-6/ Extensions (en fonction du temps): Modèles avec dépendance au contexte, modèles non-stationnaires.
Responsables : N. Brunel, A. Vidal.
Découpage: 5 séances de 3h
Evaluation: Examen final
Motivation:
De nombreux phénomènes dynamiques observés en Sciences du Vivant sont modélisés à l’aide d’équations ou systèmes d’équations différentielles. Ce cours a pour but de présenter les outils d’analyse qualitative des systèmes dynamiques et leur mise en application à des modèles classiques.
Contenu du cours et des TD
Systèmes dynamiques discrets et continus : espace des phases, flot, orbites. Exemples de modèles en Neurosciences (Hodgkin-Huxley), Biochimie (Michaëlis-Menten), Dynamiques de population (Lotka-Volterra et Kolmogorov, chaînes trophiques et fonctions de réponses de type de Holling), climatologie (Lorenz). Points singuliers, orbites périodiques et cycles limites, connexions homoclines et hétéroclines : hyperbolicité, stabilité asymptotique, classification dans le plan, application de Poincaré, théorème de Poincaré-Bendixson. Application aux modèles de Lotka-Volterra et Kolmogorov. Théorème d’existence des variétés stables, instables et centrales des points singuliers et des cycles limites. Exposants de Floquet. Théorème duflowbox Bifurcations et formes normales. Conjugaison locale des flots et changement de coordonnées locales. Théorème de la variété centrale. Application à l’agrégation des chaînes trophiques et la réduction des équations biochimiques. Bifurcations de codimension 1 des points singuliers et cycles limites. Applications aux modèles de Van der Pol et Fitzhugh-Nagumo et aux chaînes trophiques. Bifurcations locales de codimension 2. Application à un modèle de type Hodgkin-Huxley. Quelques exemples de bifurcations globales.
UE10 Modules optionnels (4 ECTS)
Responsable du cours: JP Vert, Commun avec Math-SV
Pré-requis : Algèbre linéaire, analyse fonctionnelle, optimisation niveau L3 ou GE seraient un plus.
Organisation des séances : 7 cours de 3 heures
Mode de validation : Contrôle continu (devoirs à la maison)
Références : N. Aronszajn. Theory of reproducing kernels. Transactions of the American Mathematical Society, 68:337-404, 1950. / C. Berg, J.P.R. Christensen et P. Ressel. Harmonic analysis on semi-groups. Springer, 1994. / N. Cristianini and J. Shawe-Taylor. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004.
Positive definite kernels
Reproducing kernel Hilbert spaces
Kernel trick
Representer theorem
Kernel PCA
Kernel ridge regression
Support vector machines
Semigroup kernel
Kernel for strings
Kernels for graphs
Kernels on graphs
Responsable:
Évaluation (1re session) Évaluation (2e session) Découpage – Cours :
Responsable: A. Rau (CR INRA) Cours à Evry
Objectifs: le cours présente une introduction générale à la statistique bayésienne et bayésienne empirique, ainsi que leur implémentation et leur utilisation dans des applications génomiques: analyse d'expression différentielle de gènes, intégration de données hétérogènes, GWAS. Ce cours permettra notamment de comprendre l'utilité et la mise en pratique des approches bayésiennes dans ce contexte.
1) Introduction à la statistique bayésienne:
- Lois a priori et a posteriori, inférence, modélisation graphique, évaluation de modèle
- Méthodes numériques
2) La statistique bayésienne empirique:
3) Applications:
UE11 Projet en génomique (4 ECTS)
Responsables: G. Rigaill et M.-L. Taupin
Responsables: C. Dalmasso et M.-L. Taupin