Statistiques descriptives

Exercice 1

Pour étudier l’effet d’un somnifère, on mesure chez 19 patients le nombre d’heures de sommeil supplémentaires par rapport à la durée moyenne de leur nuit sans traitement. On obtient les résultats suivants:

extra <- c(-1.6,-0.2,-1.2,-0.1,3.4,3.7,0.8,0.0,2.0,1.9,0.8,1.1,0.1,-0.1,4.4,5.5,1.6,4.6,3.4)
  1. Faire un résumé numérique.
#indicateurs de position
summary(extra)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -1.600  -0.050   1.100   1.584   3.400   5.500
mean(extra)
## [1] 1.584211
median(extra)
## [1] 1.1
#indicateurs de dispertion
var(extra) # variance empirique corrigée
## [1] 4.256959
sd(extra) # écart-type corrigé
## [1] 2.06324
max(extra)-min(extra) # étendue
## [1] 7.1
  1. Tracer un histogramme des données.
hist(extra)

  1. Ces données sont en fait issues de deux groupes d’individus : apposer une variable indiquant le groupe associé à l’observation de la variable extra sachant que les 10 premiers individus sont issus du groupe 1 et les 9 suivants du groupe 2 (utiliser, par exemple, la commande data.frame). Faire un résumé statistique pour chaque groupe et tracer alors les boîtes à moustaches des observations selon les groupes. Qu’en pensez-vous ?
groupe <- factor(c(rep("groupe.1",10),rep("groupe.2",9)))
mes.donnees <- data.frame(extra,groupe)
tapply(extra,groupe,mean)
## groupe.1 groupe.2 
## 0.870000 2.377778
tapply(extra,groupe,summary)
## $groupe.1
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -1.600  -0.175   0.400   0.870   1.975   3.700 
## 
## $groupe.2
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -0.100   0.800   1.600   2.378   4.400   5.500
tapply(extra,groupe,var)
## groupe.1 groupe.2 
## 3.331222 4.484444
tapply(extra,groupe,sd)
## groupe.1 groupe.2 
## 1.825164 2.117651
boxplot(extra~groupe)

Probabilités

Exercice 2

Notons X la variable aléatoire correspondant au niveau d’expression (normalisé) d’un gène G. De nombreuses expériences ont permis d’établir que \(X\sim N(0.2,1.3)\).

  1. Représenter graphiquement la distribution de \(X\).
?dnorm
## starting httpd help server ... done
curve(dnorm(x,0.2,sqrt(1.3)),-3,3,col="dodgerblue",lwd=2)
abline(v=0,col="red")

  1. Déterminer les probabibilités suivantes:
  • \(P(X>0.6)\)
  • \(P(X<-0.2)\)
  • \(P(0.1<X<0.7)\)
  • \(P(0\leq X <0.5)\)
1-pnorm(0.6,mean=0.2,sd=sqrt(1.3))
## [1] 0.3628605
pnorm(-0.2,mean=0.2,sd=sqrt(1.3))
## [1] 0.3628605
pnorm(0.7,mean=0.2,sd=sqrt(1.3))-pnorm(0.1,mean=0.2,sd=sqrt(1.3))
## [1] 0.2044433
pnorm(0.5,mean=0.2,sd=sqrt(1.3))-pnorm(0,mean=0.2,sd=sqrt(1.3))
## [1] 0.1733918
  1. Déterminer les valeurs de \(a\) telles que:
  • \(P(X\leq a)=0.45\)
  • \(Pr(X>a)=0.62\)
qnorm(0.45,mean=0.2,sd=sqrt(1.3))
## [1] 0.05672402
qnorm(1-0.62,mean=0.2,sd=sqrt(1.3))
## [1] -0.1483017

Une modification des réglages du scaner de la plateforme conduit à multiplier par \(1.2\) toutes les intensités \(X\). Quelles est la loi de la nouvelle variable aléatoire \(Y\) correspondant au niveau d’expression du gène G?

Réponse : Si \(X\sim \mathcal N(\mu_X=0.2,\sigma^2_X=1.3)\), alors, par stabilité de la loi normale par combinaison linéaire \(Y\sim\mathcal N(1.2\mu_X,1.2^2\sigma^2_X)\)

Exercice 3

On suppose que la glycémie est distribuée normalement dans la population, avec une moyenne de 1 g/l et un écart-type de 0,03 g/l. On mesure la glycémie chez un individu.

  1. Calculer la probabilité pour que sa glycémie soit :
  1. inférieure à 1,06

  2. supérieure à 0,9985

  3. comprise entre 0,94 et 1,08

#a)
pnorm(1.06,1,0.03)
## [1] 0.9772499
#b)
1-pnorm(0.9985,1,0.03)
## [1] 0.5199388
#c)
pnorm(1.08,1,0.03)-pnorm(0.94,1,0.03)
## [1] 0.9734195
  1. On mesure la glycémie chez 1 000 individus. Donner le nombre moyen d’individus dont la glycémie est supérieure à 0,99.

Soit \(Y_i\) la variable aléatoire telle que \(Y_i=1\) si la glycémie de l’individu \(i\) est supérieure à 0.99, et \(Y_i=0\) sinon (\(i=1,...,1000\)). \(Y_i\sim\mathcal B(P(X>0.99))\). Donc \(Z=\sum X_i\) (qui est le nombre d’individus ayant une glycémie >0.99) suit la loi : \(Z\sim\mathcal B(n=1000,p=P(X>0.99))\). Ainsi \(E(Z)=np\)

1000*(1-pnorm(0.99,1,0.03))
## [1] 630.5587

Estimation

Exercice 4

Pour estimer la densité bactérienne d’une suspension, on ensemence avec le même volume \(v\) 10 boîtes de Pétri sur lesquelles on compte les nombres suivants de colonies (qui sont aussi les nombres de bactéries présentes dans chacun des volumes \(v\)) :

nbbact <- c(47, 47, 55, 47, 56, 56, 38, 42, 48, 45)

On note \(N\) le nombre de bactéries présentes dans un volume \(v\).

  1. Estimer l’espérance \(\mu\) de \(N\).

  2. Estimer la variance \(\sigma^2\) de \(N\).

  3. On suppose que \(N\) suit une distribution de Poisson.

Donner une autre estimation de \(\sigma^2\) que celle obtenue en 2.

# 1.
mean(nbbact)
## [1] 48.1
# 2.
var(nbbact)
## [1] 36.1
# ou bien : 
n <- length(nbbact)
1/(n-1)*sum((nbbact-mean(nbbact))^2)
## [1] 36.1
# 3.

Exercice 5

Pour déterminer la concentration en glucose d’un échantillon sanguin, on effectue des dosages à l’aide d’une technique expérimentale donnée. On considère que le résultat de chaque dosage est une variable aléatoire normale. On effectue 10 dosages indépendants, qui donnent les résultats suivants (en g/l) :

dosages <- c(0.96, 1.04, 1.08, 0.92, 1.04, 1.18, 0.99, 0.99, 1.25, 1.08)

Calculer un interval de confiance de cette concentration de niveau \(95\%\).

Tests d’hypothèses

Exercice 6

Le temps de réaction moyen des souris d’un certain élevage à un test déterminé est de 19 minutes. On désire expérimenter un produit pharmaceutique sur ces souris. On administre à 8 d’entre elles une dose de ce produit et l’on observe les temps de réaction suivants (en minutes) :

tpsreact <- c(15, 14, 21, 12, 17, 12, 19, 18)

On suppose les temps de réaction normalement distribués. Au niveau \(\alpha=5\%\), l’action du produit est-elle significative ?

  1. (Facultatif) Ecrire une fonction ‘my.t.test’ prenant en entrée un vecteur d’observations et une valeur \(\mu_0\) et retournant la p-value du test. Utiliser la fonction pour tester l’action du produit.
my.t.test <- function(x,mu0,alternative="two.sided"){
  n <- length(x)
  vstat <-  (mean(x)-mu0)/sqrt(var(x)/n)
  vpval <- 2*pt(-abs(vstat),n-1)
  return(vpval)
}
my.t.test(x=tpsreact,mu0=19)
## [1] 0.03672917
  1. Faire le test en utilisant la fonciton ‘t.test’
  • Modèle statistique :

Soit \(X_i\) le temps de réactio nde la souris \(i\) ayant reçu une dose de produit. On suppose \(X_i\sim\mathcal N(\mu,\sigma^2)\)

  • Hypothèses testées : \(H_0:\mu=19\) vs \(H_1:\mu\neq19\) (test bilatéral de comparaison de l’espérance d’un échantillon gaussien à une valeur théorique)

  • Niveau du test : \(\alpha=0.05\)

  • Calcul de la statistique de test et de la p.value :

resttest <- t.test(tpsreact,alternative="two.sided",mu=19,conf.level=0.95)
resttest
## 
##  One Sample t-test
## 
## data:  tpsreact
## t = -2.5752, df = 7, p-value = 0.03673
## alternative hypothesis: true mean is not equal to 19
## 95 percent confidence interval:
##  13.2453 18.7547
## sample estimates:
## mean of x 
##        16
#names(resttest)
  • Conclusion : Au niveau \(\alpha=0.05\), on rejette \(H_0\) (car p=0.03673<0.05), donc le produit a un effet significatif sur le temps de réaction des souris.

Exercice 7

La quinine est une molécule utilisée dans le traitement du paludisme. Des médecins ont constaté que les patients qui suivent un traitement à base de quinine semblent présenter des réactions allergiques au soleil plus fréquentes.

  1. Pour étudier ce phénomène, une étude préliminaire portant sur 10 patients suivant un traitement à base de quinine a été mise en place. Des études antérieures on permis d’établir que le pourcentage d’individus dans la population générale qui présente une réaction allergique au soleil est de \(20\%\). Sur les 10 patients traités, \(3\) ont eu une réaction allergique. Proposez un test statistique pour vérifier l’hypothèse des médecins et conclure.
  • Soit \(X_i\) la variabkle indicatrice de la présence d’une réaction allergique (c’est à dire que \(X_i=1\) si réacion allergique, 0 sinon). Donc \(X_i\sim\mathcal B(p)\)\(p=P(X_i=1)\)

  • Hypothèses testées : \(H_0: p=0.2\) vs \(H_1: p>0.2\) (test unilatéral à droite de comparaison d’un pourcentage à une valeur théorique)

  • Statistique de test : \(\sum X_i=3\) (nombre de réactions allergiques)

  • Calcul de la p.value :

1-pbinom(2,10,0.2)
## [1] 0.3222005
# ou bien : 
?binom.test
binom.test(x=3,n=10,p=0.2,alternative="greater")
## 
##  Exact binomial test
## 
## data:  3 and 10
## number of successes = 3, number of trials = 10, p-value = 0.3222
## alternative hypothesis: true probability of success is greater than 0.2
## 95 percent confidence interval:
##  0.08726443 1.00000000
## sample estimates:
## probability of success 
##                    0.3
# ou bien
binom.test(x=c(3,7),p=0.2,alternative="greater")
## 
##  Exact binomial test
## 
## data:  c(3, 7)
## number of successes = 3, number of trials = 10, p-value = 0.3222
## alternative hypothesis: true probability of success is greater than 0.2
## 95 percent confidence interval:
##  0.08726443 1.00000000
## sample estimates:
## probability of success 
##                    0.3
  • Conclusion : Au niveau \(\alpha=0.05\), on ne rejette pas \(H_0\) (car p=0.3222>0.05), donc la quinine les patients traités à base de quinine ne présentent pas un nombre de réaction allergiques significativement plus grand que la population générale.
  1. Une plus grande étude portant sur 1000 patients suivant un traitement à base de quinine a été mise en place. Sur les 1000 patients traités, \(237\) ont eu une réaction allergique. En utilisant l’approximation gaussienne, proposez un nouveau test statistique pour vérifier l’hypothèse des médecins et conclure.
  • Modèle statistique : même modèle avec n=1000

  • Hypothèses testées : les mêmes

  • Niveau : 0.05

    1. statistique de test (Test binomial)
binom.test(x=237,n=1000,p=0.2,alternative="greater")
## 
##  Exact binomial test
## 
## data:  237 and 1000
## number of successes = 237, number of trials = 1000, p-value = 0.002309
## alternative hypothesis: true probability of success is greater than 0.2
## 95 percent confidence interval:
##  0.2149756 1.0000000
## sample estimates:
## probability of success 
##                  0.237
    1. statistique de test (approximation binomiale)
vstat <- ((237/1000)-0.2)/sqrt(0.2*(1-0.2)/1000)
vpval <- 1-pnorm(vstat,0,1)
vpval
## [1] 0.00172169
  • Conclusion : Au niveau 0.05, on rejette \(H_0\) : lien significatif entre quinine et réaction allergique.

Exercice 8

En population générale, la proportion d’enfants dont la maturation osseuse atteint un retard de un an ou plus (par rapport à une certaine norme) est \(p=20\%\). Dans le cadre d’une étude portant sur les conséquences éventuelles d’une exposition modérée au fluor sur la santé des enfants, on prévoit d’observer \(15\) enfants habitant à proximité d’une source de fluor.

Sur les \(15\) enfants observés, \(5\) présentent un retard. Que peut-on conclure (réaliser un test de niveau \(\alpha=5\%\)) ?

  • Modèle statistique : Soit \(X_i\) la variable aléatoire telle que \(X_i\) si l’enfant \(i\) habitant à proximité d’une source de fluor a un retard de croissance, \(X_i=0\) sinon. \(X_i\sim \mathcal B(p)\)

  • Hypothèses testées : \(H_0: p=0.2\) vs \(H_0:p\neq 0.2\)

  • Statistique de test et p-value :

binom.test(5,15,p=0.2,alternative="two.sided")
## 
##  Exact binomial test
## 
## data:  5 and 15
## number of successes = 5, number of trials = 15, p-value = 0.1994
## alternative hypothesis: true probability of success is not equal to 0.2
## 95 percent confidence interval:
##  0.1182411 0.6161963
## sample estimates:
## probability of success 
##              0.3333333
  • Conclusion : Au niveau 0.05, il n’y a pas de lien significatif entre le fait d’habiter à proximité d’une source de fluor et le retard de maturation osseuse.

Exercice 9

On envisage d’ajouter un adjuvant au traitement usuel d’un certain type de rhumatisme. Sans adjuvant, la durée séparant deux crises de récurrence rhumatismale peut être modélisée par une variable aléatoire suivant une distribution normale d’espérance \(\mu=560\) (exprimée en jours). On administre le traitement avec adjuvant à 10 sujets. Les durées de récurrence observées sont les suivantes :

adjv <- c(646, 573, 485, 752, 742, 636, 607, 665, 506, 575)

Au niveau \(\alpha=5\%\), l’adjuvant modifie-t-il significativement la durée moyenne de récurrence ?

  • Modèle statistique : Soit \(X_i\) (i=1,…,10) la durée de récurrence du sujet \(i\). \(X_i\sim\mathcal N(\mu, \sigma^2)\).

  • Hypothèses testées : \(H_0 : \mu=560\) vs \(H_1 : \mu\neq 560\)

  • Statistique de test et p-value :

t.test(adjv,mu=560)
## 
##  One Sample t-test
## 
## data:  adjv
## t = 2.0918, df = 9, p-value = 0.06599
## alternative hypothesis: true mean is not equal to 560
## 95 percent confidence interval:
##  555.2197 682.1803
## sample estimates:
## mean of x 
##     618.7
  • Conclusion : Au niveau 0.05, on ne rejette pas \(H_0\) (car p=0.06599>0.05) => l’adjuvant ne modifie pas significativement la durée moyenne de récurrence.

Exercice 10

Un laboratoire pharmaceutique produit des tubes de pommade dont les poids suivent une distribution normale. On dispose de deux échantillons issus de 2 sites de production différents. Les poids sont donnés dans le tableau suivant :

##       Echantillon 1 Echantillon 2
##  [1,]          56.4          54.6
##  [2,]          57.5          58.2
##  [3,]          55.8          60.3
##  [4,]          54.3          59.5
##  [5,]          58.9          61.1
##  [6,]          56.9          58.7
##  [7,]          54.8          59.8
##  [8,]          54.2          57.5
##  [9,]          58.1            NA
  1. Les variances des 2 échantillons sont-elles significativement différentes ?
  • Modèle statistique : Soit \(X_i\) (\(i=1,...,9\)) le poids du tube \(i\) de l’échantillon 1. \(X_i\sim\mathcal N(\mu_1,\sigma^2_1)\). Soit \(Y_i\) (\(i=1,...,8\)) le poids du tube \(i\) de l’échantillon 2. \(Y_i\sim\mathcal N(\mu_2,\sigma^2_2)\).Les deux échantillons sont indépendants.

  • Hypothèses testées : \(H_0 : \sigma^2_1=\sigma^2_2\) vs \(H_1 : \sigma^2_1\neq\sigma^2_2\)

  • Statistique de test et p-value :

var.test(tableau[,1],tableau[,2])
## 
##  F test to compare two variances
## 
## data:  tableau[, 1] and tableau[, 2]
## F = 0.6933, num df = 8, denom df = 7, p-value = 0.6162
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1415093 3.1396627
## sample estimates:
## ratio of variances 
##          0.6933023
  • Conclusion : Au nieau 0.05, on ne rejette pas \(H_0\) (car p>0.05) (les variances ne sont pas significativement différentes).
  1. Le poids des tubes est-il significativement différent d’un site de production à l’autre ?
  • Modèle statistique : Même modèle. On suppose en outre : \(\sigma^2_1=\sigma^2_2\)

  • Hypothèses testées : \(H_0 : \mu_1=\mu_2\) vs \(H_1 : \mu_1\neq\mu_2\)

  • Statistique de test et p-value : (comparaison des esparances de deux échantillons gaussiens indépendants)

t.test(tableau[,1],tableau[,2],var.equal=TRUE)
## 
##  Two Sample t-test
## 
## data:  tableau[, 1] and tableau[, 2]
## t = -2.6578, df = 15, p-value = 0.01791
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -4.3071929 -0.4733626
## sample estimates:
## mean of x mean of y 
##  56.32222  58.71250
  • Conclusion : Au niveau 0.05, on rejette \(H_0\) (car p<0.05) => Le poids des tubes est significativement différent d’un site à l’autre.

Exercice 11

Un producteur de lait souhaite comparer le rendement moyen des vaches normandes et hollandaises de son unité de production. Pour ce faire, il a relevé la production de lait (exprimée en kg) de 10 vaches prises au hasard dans chaque groupe. On suppose que la production dans chaque groupe suit une distribution normale.

##       Normandes Hollandaises
##  [1,]       552          487
##  [2,]       464          489
##  [3,]       423          470
##  [4,]       506          482
##  [5,]       497          494
##  [6,]       544          500
##  [7,]       486          504
##  [8,]       531          567
##  [9,]       496          482
## [10,]       501          526

Conclure au vu de ces données.

  • Modèle statistique :

  • Hypothèses testées :

  • Statistique de test et p-value :

  • Conclusion :

Exercice 12

On fait une numération globulaire à un groupe de 10 personnes à deux périodes différentes de l’année. Pour chaque sujet, on note les résultats des deux numérations (à multiplier par \(10^5\)) :

##    Sujet Janvier Septembre
## 1      1      46        48
## 2      2      38        47
## 3      3      42        44
## 4      4      47        45
## 5      5      48        51
## 6      6      40        44
## 7      7      40        47
## 8      8      43        48
## 9      9      42        47
## 10    10      49        57

On suppose que les sujets sont mutuellement indépendants et suivent une loi gaussienne. Tester au niveau 0.05 l’hypothèse selon laquele les résultats de la numération sont les mêmes aux deux périodes.

  • Modèle statistique : Soit \(X_i\) la numération en janvier pour le sujet \(i\) en janvier et \(Y_i\) la numération pour le même sujet \(i\) en septembre. \(X_i\sim\mathcal N(\mu_X,\sigma^2_X)\) et \(Y_i\sim\mathcal N(\mu_Y,\sigma^2_Y)\). Les deux échantillons sont appariés.

  • Hypothèses testées : \(H_0:\mu_X=\mu_Y\) vs \(H1:\mu_X\neq\mu_Y\)

  • Statistique de test et p-value :

t.test(glob$Janvier,glob$Septembre,paired=TRUE,alternative="two.sided")
## 
##  Paired t-test
## 
## data:  glob$Janvier and glob$Septembre
## t = -4.1613, df = 9, p-value = 0.002443
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -6.637562 -1.962438
## sample estimates:
## mean of the differences 
##                    -4.3
t.test(glob$Janvier-glob$Septembre,alternative="two.sided")
## 
##  One Sample t-test
## 
## data:  glob$Janvier - glob$Septembre
## t = -4.1613, df = 9, p-value = 0.002443
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -6.637562 -1.962438
## sample estimates:
## mean of x 
##      -4.3
  • Conclusion : Au niveau 0.05, on rejette \(H_0\) => la numération est significativement différente aux deux périodes.

Exercice 13

La quantité de bactéries par \(cm^3\) de lait provenant de 8 vaches différentes est estimée juste après la traite et 24h plus tard. La distribution des résultats obtenus est supposée normale. Au niveau \(\alpha=5\%\), existe-t-il un accroissement significatif du nombre de bactéries par \(cm^3\) de lait au cours du temps ?

##      Vache Juste après la\ntraite 24h après la traite 
## [1,]     1                  12000                14000
## [2,]     2                  13000                20000
## [3,]     3                  21500                31000
## [4,]     4                  17000                28000
## [5,]     5                  15000                26000
## [6,]     6                  22000                30000
## [7,]     7                  11000                16000
## [8,]     8                  21000                29000
  • Modèle statistique :

  • Hypothèses testées :

  • Statistique de test et p-value :

  • Conclusion :

Exercice 14

Le tableau suivant donne la répartition (en pourcentages) des quatre groupes sanguins pour l’ensemble de l’Europe:

##    O    A    B   AB 
## 0.40 0.43 0.12 0.05

Pour un échantillon de 100 individus prélevés au hasard dans la population d’une région montagneuse (et isolée) de l’Europe, on a relevé les effectifs suivants:

##  O  A  B AB 
## 35 35 20 10

Y a-t-il conformité entre ces observations et la répartition pour l’ensemble de l’Europe au seuil \(\alpha=5\%\) ?

  • Modèle statistique : Soit \(X_i\) le groupe sanguin de l’individu de la région isolée (\(X_i\) est une variable qualitative nominale avec \(\Omega_X=\{O,A,B,AB\}\)). \(X_i\sim\mathcal L_X\).

  • Hypothèses testées : \(H_0: \mathcal L_X=\mathcal L_0\)\(\mathcal L_0\) est définie par les probabilités P(X=O)=0.4,P(X=A)=0.43,P(X=B)=0.12,P(X=AB)=0.05.

  • Statistique de test et p-value :

res <- chisq.test(c(O=35,A=35,B=20,AB=10),p=c(O=0.4,A=0.43,B=0.12,AB=0.05))
res
## 
##  Chi-squared test for given probabilities
## 
## data:  c(O = 35, A = 35, B = 20, AB = 10)
## X-squared = 12.447, df = 3, p-value = 0.006
names(res)
## [1] "statistic" "parameter" "p.value"   "method"    "data.name" "observed" 
## [7] "expected"  "residuals" "stdres"
# ou bien 
Oi <- c(O=35,A=35,B=20,AB=10)
n <- sum(Oi)
Ai <- c(O=0.4,A=0.43,B=0.12,AB=0.05)*n
Xsq <- sum((Oi-Ai)^2/Ai); Xsq
## [1] 12.44671
1-pchisq(Xsq,3)
## [1] 0.005999569
  • Conclusion : Au niveau 0.05, on rejette \(H_0\) car p=0.006<0.05 => la répartiton des groupes sanguins est significativement différente dans cette région montagneuse de la répartion dans l’ensemble de l’Europe.

Exercice 15

Une boîte de Petri a été photographiée au microscope. La photographie est divisée en carrés de surfaces égales. Le dénombrement dans chaque carré des colonies de bactéries donne le tableau suivant:

##                              [,1] [,2] [,3] [,4] [,5] [,6]
## Nombre de colonies par carré    0    1    2    3    4    5
## Nombre de carrés               10   24   34   23    6    3
  1. Estimer le nombre moyen de colonies par carré.

  2. Peut-on accepter l’hypothèse selon laquelle le nombre de colonies par carré est distribué suivant une loi de Poisson ?

  • Modèle statistique :

  • Hypothèses testées :

  • Statistique de test et p-value :

  • Conclusion :

Exercice 16

Après de nombreuses années d’études cliniques, on a constaté que pour les malades atteints d’un cancer anaplasique bronchopulmonaire primitif, la survie sans traitement, une fois le diagnostic posé, se distribue de la façon suivante :

##                       [,1]   [,2]     [,3]      [,4]  
## Survie (en mois)      "<6"   "6 à 12" "12 à 24" ">24" 
## Fréquence des survies "0.45" "0.35"   "0.15"    "0.05"

Pour 60 patients soumis à un traitement T associant une polychimoithérapie première suivie d’une radiothérapie on a observé les résultats suivants :

##                    [,1] [,2]     [,3]      [,4] 
## Survie (en mois)   "<6" "6 à 12" "12 à 24" ">24"
## Nombre de patients "6"  "24"     "12"      "18"

Au vu de ces résultats, peut-on conclure (au niveau 5%) que le traitement a un effet significatif sur la survie ?

  • Modèle statistique :

  • Hypothèses testées :

  • Statistique de test et p-value :

  • Conclusion :

Exercice 17

On étudie, chez les enfants asthmatiques, le lien éventuel entre intensité de l’asthme et présence d’eczéma (pendant l’obervation ou antérieurement à celle-ci). L’étude de 200 enfants asthmatiques a fourni les résultats suivants:

##         fort moyen léger
## présent   24     6     5
## passé     30    30    10
## jamais    18    54    23

Au seuil \(\alpha=5\%\) peut-on conclure à l’indépendance des deux caractères ?

  • Modèle statistique : Soit \(X_i\) l’intensité de l’asthme pour l’enfant \(i\) (i=1,…,200) et soit \(Y_i\) la présence d’eczema pour l’enfant \(i\). \(X_i\sim \mathcal L_X\) et \(Y_i\sim\mathcal L_Y\).

  • Hypothèses testées : $H_0: X et Yind. $ vs. \(H_1:Xet Ynon ind.\)

  • Statistique de test et p-value :

res <- chisq.test(tab)
res
## 
##  Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 30.556, df = 4, p-value = 3.772e-06
res$expected
##         fort moyen léger
## présent 12.6 15.75  6.65
## passé   25.2 31.50 13.30
## jamais  34.2 42.75 18.05
  • Conclusion : Au niveau 0.05, on rejette \(H_0\) (car p<<0.05) => lien significatif entre intensité de l’asthme et présence d’eczéma.

Exercice 18

Dans une population \(P\) d’hommes qui a été suivie pendant une période de 4 ans, on a sélectionné par tirage au sort 100 sujets qui avaient maigri au cours des 4 ans (poids final inférieur au poids initial de plus de 1kg), 100 sujets dont le poids n’avaient pas varié de plus de 1kg et 100 sujets qui avaient grossi. La répartition des 300 sujets selon l’évolution de leur cholestérolémie est donnée dans le tableau suivant :

##                               .         ..
## PoidsxCholestérolémie a diminué a augmenté
## a diminué                    52         48
## n'a pas varié                45         55
## a augmenté                   32         68

Au niveau \(\alpha=5\%\), peut-on conclure qu’il existe une relation significative entre les modifications de poids et les modifications de cholestérolémie ?

Exercice 19

Deux lots de souris doivent sortir d’un labyrinthe et disposent de 8 sorties correspondant aux 8 directions de la rose des vents. Le premier lot est formé de souris de laboratoire, le second de souris sauvages capturées au Nord-Est du laboratoire.

##   DirectionDeFuite SourisDeLAboratoire SourisSauvages
## 1                N                  17             26
## 2               NO                  25             17
## 3                O                  13              9
## 4               SO                  28              2
## 5                S                  19              3
## 6               SE                  20             16
## 7                E                  22             33
## 8               NE                  16             54

Les directions de fuite sont-elles réparties de la même façon dans les deux groupes?

Exercice 20

Lors d’une étude médicale, on a déterminé le génotype de \(n=1000\) personnes. Les observations sont les suivantes :

\(AA\) \(Aa\) \(aa\)
Effectifs 652 310 38

Proposer un test permettant de savoir si la population est sous l’équilibre de Hardy-Weinberg (c’est à dire que, pour un locus donné dont la fréquence de l’allèle A est p, alors : \(P(AA)=p^2\), \(P(Aa)=2p(1-p)\) et \(P(aa)=(1-p)^2\)).

Exercice 21

La notice d’un sirop contre la toux indique comme valeur de référence pour la moyenne \(m_0\) de l’agent actif \(40 g/\)litre. Le contrôleur de la fabrication décidera d’arrêter provisoirement la production si la moyenne \(m\) inconnue est strictement infèrieure à cette valeur de référence. Il souhaite ne prendre qu’un risque minime c’est-à-dire \(\alpha = 0.01\) en décidant d’arrêter à tort la production.

Le contrôleur de la fabrication prélève de manière indépendantes 9 bouteilles au hasard dans la production et mesure la quantité d’agent actif. Les résultats pour ces 9 dosages indépendants sont les suivants (en g/litre):

38.7, 39.6, 37.9, 40.6, 40.5, 37.7, 41.2, 37.5, 39.1.

On suppose que la quantité d’agent actif conditionnée dans une bouteille de sirop est une variable normale, centrée sur la vraie valeur \(m\) (absence de biais).

  1. Proposer un test au niveau \(1\%\) permettant de savoir quelle décision prendre ;
  • Modèle statistique :

  • Hypothèses testées :

  • Statistique de test et p-value :

  • Conclusion :

  1. Déterminer un intervalle de confiance à \(99\%\) pour \(m\) ;

Exercice 22

Un échantillon de 40 poissons de la même espèce a fourni les poids suivant (en g):

poids <- c(61, 82, 92, 97, 101, 104, 109, 118, 131, 155, 69, 82, 93, 97, 101, 104, 110, 120, 133, 145, 105, 110, 121, 138, 166, 74, 85, 93, 99, 102, 106, 110, 125, 140, 171, 79, 87, 94, 99, 102)
  1. Présenter une synthèse de ce tableau (graphiques et paramètres).

  2. La distribution de cette variable peut-elle être considérée comme normale ?

  3. Déterminer un intervalle de confiance à 5% de la moyenne.

  4. La moyenne est-elle significativement différente de 100 avec un risque de 5% ? de 1%?

Exercice 23

Plusieurs sujets sont choisis au hasard dans une population et, parmi ceux-ci, certains sont tirés au sort pour recevoir un traitement (Groupe A), les autres devant servir de témoins (Groupe B).
Le traitement est censé modifier le résultat d’un dosage biologique. Les résultats, exprimés en mg/l, sont les suivants :

Groupe A 6,50 5,50 8,00 7,00 6,00
Groupe B 7,00 8,50 8,00 7,50 9,00
  1. Quel test choisir ?

  2. Préciser les hypothèses (\(H_0\)) et (\(H_1\)).

  3. Rappeler les conditions d’application du test utilisé.

  4. Peut-on admettre (\(\alpha\) = 5%) que le traitement modifie le paramètre biologique ?

Exercice 24

On souhaite étudier l’effet d’une nouvelle stratégie de traitement du diabète sur la glycémie. On dose la glycémie chez 15 sujets avant le début du nouveau protocole (série A) et 3 mois après (série B) :

A 2,47 3,09 2,14 2,47 3,06 2,72 2,29 1,90 2,34 2,75 2,67 2,80 2,51 2,23 2,20
B 2,30 2,96 2,23 2,34 2,84 2,59 2,15 1,88 2,32 2,65 2,68 2,58 2,43 2,02 2,17

Le nouveau protocole est-il efficace ?

Exercice 25

Cinq rats sont entraînés à imiter un rat leader dans un labyrinthe en T, pour atteindre une source de nourriture. Puis ces rats sont ensuite transférés dans une situation o`u par imitation d’un rat leader, ils apprennent à éviter un choc électrique. Leur comportement dans cette situation est comparé à celui de rats n’ayant pas été entraînés à suivre un leader. La comparaison se fait en terme de nombre d’essais nécessaire à chaque rat pour obtenir 10 réponses d’évitement lors de 10 essais.

Exp 78 64 75 45 82
Témoins 110 70 53 51

Les 5 rats préalablement conditionnés à imiter un congénère réussissent-ils rapidement que les autres à éviter les chocs?

Exercice 26

On a mesuré sur Dunaliella Marina, la quantité d’azote protéique par cellule, à la même date et dans des conditions expérimentales identiques, sur une culture témoin et sur une culture préalablement irradiée. On pense que l’irradiation favorise un développement anormal des cellules.

Culture témoin 1.65 2.00 1.69 2.20 2.13 1.66 2.30 1.87 1.74 1.97
Culture irradiée 2.29 2.57 2.66 2.45 2.97 2.27 1.76 2.74 2.36

Interpréter les résultats.

Exercice 27

On souhaite comparer trois traitements notés A, B, C contre l’asthme: le traitement B est un nouveau traitement, que l’on souhaite mettre en compétition avec les traitements classiques A et C. On répartit par tirage au sort les patients et on mesure sur chacun la durée en jours avant la prochaine crise d’asthme.

  1. Visualisation des données.
  1. Stocker les données dans une variable de votre choix à l’aide de la fonction . La table ainsi créée a deux colonnes: l’une contenant le délai observé avant la prochaine crise d’asthme, l’autre le type de traitement reçu.

  2. Faire un résumé numérique des données à l’aide de la commande . À l’aide de la commande , faire un résumé numérique par traitement. Représenter graphiquement ces résultats à l’aide de boîtes à moustaches (fonction ). Que peut-on en conclure ?

  1. Analyse de la variance : Tester l’égalité des espérances pour les trois traitements à l’aide d’une analyse de la variance (fonctions et ).
asthm <- read.table("./data/asthme.dat",header=TRUE)
asthm
##    delai groupe
## 1     26      A
## 2     27      A
## 3     35      A
## 4     36      A
## 5     38      A
## 6     38      A
## 7     41      A
## 8     42      A
## 9     45      A
## 10    50      A
## 11    65      A
## 12    29      B
## 13    42      B
## 14    44      B
## 15    44      B
## 16    45      B
## 17    48      B
## 18    48      B
## 19    52      B
## 20    56      B
## 21    56      B
## 22    58      B
## 23    58      B
## 24    60      B
## 25    61      B
## 26    63      B
## 27    63      B
## 28    69      B
## 29    26      C
## 30    26      C
## 31    30      C
## 32    30      C
## 33    33      C
## 34    36      C
## 35    38      C
## 36    38      C
## 37    39      C
## 38    46      C
## 39    47      C
## 40    51      C
## 41    51      C
## 42    56      C
## 43    75      C
reslm <- lm(delai~as.factor(groupe),data=asthm)
anova(reslm)
## Analysis of Variance Table
## 
## Response: delai
##                   Df Sum Sq Mean Sq F value  Pr(>F)   
## as.factor(groupe)  2 1426.8  713.42  5.4674 0.00796 **
## Residuals         40 5219.4  130.49                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Exercice 28

On souhaite étudier l’effet du niveau de fertilisation et de la rotation de culture sur le poids des grains de colza. On compare pour cela 2 niveaux de fertilisation (notés 1 pour faible et 2 pour fort) et 3 types de rotation de culture maïs / blé / colza / blé : A (sans enfouissement de paille), B (avec enfouissement de paille) et C (avec quatre années de prairie temporaire entre chaque succession sans enfouissement de paille).

  1. Questions préliminaires
  1. Charger le fichier de données à l’aide de la fonction , contenant le poids moyen mesuré dans chacune des 60 parcelles ainsi que les conditions de fertilisation et de rotation associées.

  2. Tracer les boîtes à moustaches pour les différentes niveaux des facteurs (fonction ).

  3. Tracer le graphe des interactions entre entre les deux facteurs (fonction ).

  1. Analyse de la variance :

Tester l’interaction entre les facteurs, l’effet du facteur fertilisation et l’effet du facteur rotation. Enfin, tester l’intérêt du modèle.

Exercice 29

On s’intéresse aux performances sportives d’enfants de 12 ans. Chaque enfant passe une dizaine d’épreuves (courses, sauts, lancers, etc.), et les résultats sont synthétisés dans un indice global, noté \(Y\). On cherche à mesurer l’incidence sur ces performances de deux variables: la capacité thoracique \(X_1\) et la force musculaire \(X_2\). Ces trois quantités, \(Y,X_1\) et \(X_2\), sont repérées par rapport à une valeur de référence, notée à chaque fois \(0\), les valeurs positives étant associées aux bonnes performances.

Les mesures associées à un échantillon de 60 enfants sont stockés dans le vecteur , dont vous disposerez sous une fois chargé le fichier .

On adopte, au moins dans un premier temps, le modèle \(H_2\) \[\begin{equation*} Y = a_1 \ X_1 + a_2 \ X_2 + \varepsilon, \end{equation*}\]\(\varepsilon\) est un résidu non expliqué par le modèle: les \(\varepsilon_i\) associés aux différents individus seront modélisés par des \(\mathcal{N}(0,\sigma^2)\) indépendantes (Notons que le calage des données autour de zéro se traduit par le fait que, quand \(X_1=X_2=0\), alors \(E(Y)=0\)).

  1. Représenter le nuages de points à l’aide de la fonction .

  2. Donner une estimation des paramètres \(a_1\) et \(a_2\).

  3. Tester \(H_2\) contre \(H_0\) : conclusion ?

  4. On adopte maintenant le modèle \(H_1\) \(Y = a \ X_1 + b\). Estimer \(a\) et \(b\), et représenter les données et la droite de régression associée. Observer également les résidus du modèle. Enfin, vous testerez \(H_1\) contre \(H_0\).

Exercice 30

Illustration de la régression linéaire avec R sur les données ‘penguins’

pen <- read.csv("./data/penguins.csv")

anova(lm(body_mass_g~bill_length_mm+flipper_length_mm+bill_depth_mm,data=pen))
## Analysis of Variance Table
## 
## Response: body_mass_g
##                    Df   Sum Sq  Mean Sq  F value Pr(>F)    
## bill_length_mm      1 77669072 77669072 501.8441 <2e-16 ***
## flipper_length_mm   1 88995501 88995501 575.0277 <2e-16 ***
## bill_depth_mm       1   331766   331766   2.1436 0.1441    
## Residuals         338 52311359   154767                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(lm(body_mass_g~bill_length_mm*bill_depth_mm,data=pen))
## 
## Call:
## lm(formula = body_mass_g ~ bill_length_mm * bill_depth_mm, data = pen)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1811.29  -355.81     4.35   354.80  1606.90 
## 
## Coefficients:
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  -25583.278   2668.939  -9.586   <2e-16 ***
## bill_length_mm                  715.006     58.681  12.185   <2e-16 ***
## bill_depth_mm                  1484.934    149.405   9.939   <2e-16 ***
## bill_length_mm:bill_depth_mm    -36.079      3.297 -10.944   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 503.5 on 338 degrees of freedom
##   (2 observations deleted due to missingness)
## Multiple R-squared:  0.6093, Adjusted R-squared:  0.6058 
## F-statistic: 175.7 on 3 and 338 DF,  p-value: < 2.2e-16