Projet GGS 2013

On considère des données d’expression mises en ligne sur la base de données Gene Expression Omnibus ( donneestppuce.rdata ) , publiées dans Cancer en janvier 2010 dans l’article ≪ Gene expression signatures in breast cancer distinguish phenotype characteristics, histologic subtypes, and tumor invasiveness ≫par Pedraza V, Gomez-Capilla JA, Es- caramis G, Gomez C, Torne ́ P, Rivera JM, Gil A, Araque P, Olea N, Estivill X et Fa ́rez- Vidal ME ( article.pdf ).

Elles ont été obtenues par hybridation simple (puces Affymetrix) de cellules tumorales et cellules saines d'un même patient (échantillons appariés), après plusieurs étapes de normalisation (intensité de fluorescence de chaque puce, correction de bruit de fond, normalisation des quantiles, transformation log2). A côté de ces données d’expression ont été récupérées des données cliniques précisant le type et le stade d'évolution de la tumeur :

On restreint l'échantillon à un sous-ensemble de 1500 gènes différentiellement exprimés entre échantillons sains et échantillons malades.

Analyse en composantes principales

Vous considérerez 'puce1' comme vos données d'expression.

Utiliser l'analyse en composantes principales en considerant les gènes comme variables et les échantillons en individus pour visualiser et commenter les données. Une façon d'interpréter les variables d'expression de gènes par rapport aux variables cliniques (clinical) consiste à représenter les variables cliniques comme variables supplémentaires dans le cercle de corrélations. C'est à dire à coder numériquement les variables cliniques et à calculer leur corrélation avec les composantes principales (Cette fonctionnalité est directement disponible dans FactorMiner).

Discrimination

Utiliser mClustDA du package mclust pour construire un classifieur de type de tumeur sur la base des données d'expression.