User Tools

Site Tools


members:cambroise:teaching:ggs

Projet GGS 2013

On considère des données d’expression mises en ligne sur la base de données Gene Expression Omnibus ( donneestppuce.rdata ) , publiées dans Cancer en janvier 2010 dans l’article ≪ Gene expression signatures in breast cancer distinguish phenotype characteristics, histologic subtypes, and tumor invasiveness ≫par Pedraza V, Gomez-Capilla JA, Es- caramis G, Gomez C, Torne ́ P, Rivera JM, Gil A, Araque P, Olea N, Estivill X et Fa ́rez- Vidal ME ( article.pdf ).

Elles ont été obtenues par hybridation simple (puces Affymetrix) de cellules tumorales et cellules saines d'un même patient (échantillons appariés), après plusieurs étapes de normalisation (intensité de fluorescence de chaque puce, correction de bruit de fond, normalisation des quantiles, transformation log2). A côté de ces données d’expression ont été récupérées des données cliniques précisant le type et le stade d'évolution de la tumeur :

  • Taille de la tumeur : T1,T2,T3 (TO pour les cellules saines, non tumorales) ;
  • Implication du ganglion lymphatique auxiliaire : N0 ou N+ (N1,N2,N3) ;
  • Implication des récepteurs à oestrogènes : ER- ou ER+ ;
  • grade de différenciation de la tumeur : bien différenciée (grade 1), modérément (grade 2), peu (grade 3) ;
  • histologie de la tumeur : carcinome ductal (DC) ou carcinome lobulaire (LC). Les auteurs ont défini à partir de ces données cliniques trois phénotypes de cancer du sein.

On restreint l'échantillon à un sous-ensemble de 1500 gènes différentiellement exprimés entre échantillons sains et échantillons malades.

Analyse en composantes principales

Vous considérerez 'puce1' comme vos données d'expression.

Utiliser l'analyse en composantes principales en considerant les gènes comme variables et les échantillons en individus pour visualiser et commenter les données. Une façon d'interpréter les variables d'expression de gènes par rapport aux variables cliniques (clinical) consiste à représenter les variables cliniques comme variables supplémentaires dans le cercle de corrélations. C'est à dire à coder numériquement les variables cliniques et à calculer leur corrélation avec les composantes principales (Cette fonctionnalité est directement disponible dans FactorMiner).

Discrimination

Utiliser mClustDA du package mclust pour construire un classifieur de type de tumeur sur la base des données d'expression.

members/cambroise/teaching/ggs.txt · Last modified: 2014/11/27 14:20 (external edit)

Page Tools