Pour étudier l’effet d’un somnifère, on mesure chez 19 patients le nombre d’heures de sommeil supplémentaires par rapport à la durée moyenne de leur nuit sans traitement. On obtient les résultats suivants:
extra <- c(-1.6,-0.2,-1.2,-0.1,3.4,3.7,0.8,0.0,2.0,1.9,0.8,1.1,0.1,-0.1,4.4,5.5,1.6,4.6,3.4)
#indicateurs de position
summary(extra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.600 -0.050 1.100 1.584 3.400 5.500
mean(extra)
## [1] 1.584211
median(extra)
## [1] 1.1
#indicateurs de dispertion
var(extra) # variance empirique corrigée
## [1] 4.256959
sd(extra) # écart-type corrigé
## [1] 2.06324
max(extra)-min(extra) # étendue
## [1] 7.1
hist(extra)
extra
sachant que les 10 premiers individus sont issus du groupe 1 et les 9 suivants du groupe 2 (utiliser, par exemple, la commande data.frame
). Faire un résumé statistique pour chaque groupe et tracer alors les boîtes à moustaches des observations selon les groupes. Qu’en pensez-vous ?groupe <- factor(c(rep("groupe.1",10),rep("groupe.2",9)))
mes.donnees <- data.frame(extra,groupe)
tapply(extra,groupe,mean)
## groupe.1 groupe.2
## 0.870000 2.377778
tapply(extra,groupe,summary)
## $groupe.1
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.600 -0.175 0.400 0.870 1.975 3.700
##
## $groupe.2
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.100 0.800 1.600 2.378 4.400 5.500
tapply(extra,groupe,var)
## groupe.1 groupe.2
## 3.331222 4.484444
tapply(extra,groupe,sd)
## groupe.1 groupe.2
## 1.825164 2.117651
boxplot(extra~groupe)
Notons X la variable aléatoire correspondant au niveau d’expression (normalisé) d’un gène G. De nombreuses expériences ont permis d’établir que \(X\sim N(0.2,1.3)\).
?dnorm
## starting httpd help server ... done
curve(dnorm(x,0.2,sqrt(1.3)),-3,3,col="dodgerblue",lwd=2)
abline(v=0,col="red")
1-pnorm(0.6,mean=0.2,sd=sqrt(1.3))
## [1] 0.3628605
pnorm(-0.2,mean=0.2,sd=sqrt(1.3))
## [1] 0.3628605
pnorm(0.7,mean=0.2,sd=sqrt(1.3))-pnorm(0.1,mean=0.2,sd=sqrt(1.3))
## [1] 0.2044433
pnorm(0.5,mean=0.2,sd=sqrt(1.3))-pnorm(0,mean=0.2,sd=sqrt(1.3))
## [1] 0.1733918
qnorm(0.45,mean=0.2,sd=sqrt(1.3))
## [1] 0.05672402
qnorm(1-0.62,mean=0.2,sd=sqrt(1.3))
## [1] -0.1483017
Une modification des réglages du scaner de la plateforme conduit à multiplier par \(1.2\) toutes les intensités \(X\). Quelles est la loi de la nouvelle variable aléatoire \(Y\) correspondant au niveau d’expression du gène G?
Réponse : Si \(X\sim \mathcal N(\mu_X=0.2,\sigma^2_X=1.3)\), alors, par stabilité de la loi normale par combinaison linéaire \(Y\sim\mathcal N(1.2\mu_X,1.2^2\sigma^2_X)\)
On suppose que la glycémie est distribuée normalement dans la population, avec une moyenne de 1 g/l et un écart-type de 0,03 g/l. On mesure la glycémie chez un individu.
inférieure à 1,06
supérieure à 0,9985
comprise entre 0,94 et 1,08
#a)
pnorm(1.06,1,0.03)
## [1] 0.9772499
#b)
1-pnorm(0.9985,1,0.03)
## [1] 0.5199388
#c)
pnorm(1.08,1,0.03)-pnorm(0.94,1,0.03)
## [1] 0.9734195
Soit \(Y_i\) la variable aléatoire telle que \(Y_i=1\) si la glycémie de l’individu \(i\) est supérieure à 0.99, et \(Y_i=0\) sinon (\(i=1,...,1000\)). \(Y_i\sim\mathcal B(P(X>0.99))\). Donc \(Z=\sum X_i\) (qui est le nombre d’individus ayant une glycémie >0.99) suit la loi : \(Z\sim\mathcal B(n=1000,p=P(X>0.99))\). Ainsi \(E(Z)=np\)
1000*(1-pnorm(0.99,1,0.03))
## [1] 630.5587
Pour estimer la densité bactérienne d’une suspension, on ensemence avec le même volume \(v\) 10 boîtes de Pétri sur lesquelles on compte les nombres suivants de colonies (qui sont aussi les nombres de bactéries présentes dans chacun des volumes \(v\)) :
nbbact <- c(47, 47, 55, 47, 56, 56, 38, 42, 48, 45)
On note \(N\) le nombre de bactéries présentes dans un volume \(v\).
Estimer l’espérance \(\mu\) de \(N\).
Estimer la variance \(\sigma^2\) de \(N\).
On suppose que \(N\) suit une distribution de Poisson.
Donner une autre estimation de \(\sigma^2\) que celle obtenue en 2.
# 1.
mean(nbbact)
## [1] 48.1
# 2.
var(nbbact)
## [1] 36.1
# ou bien :
n <- length(nbbact)
1/(n-1)*sum((nbbact-mean(nbbact))^2)
## [1] 36.1
# 3.
Pour déterminer la concentration en glucose d’un échantillon sanguin, on effectue des dosages à l’aide d’une technique expérimentale donnée. On considère que le résultat de chaque dosage est une variable aléatoire normale. On effectue 10 dosages indépendants, qui donnent les résultats suivants (en g/l) :
dosages <- c(0.96, 1.04, 1.08, 0.92, 1.04, 1.18, 0.99, 0.99, 1.25, 1.08)
Calculer un interval de confiance de cette concentration de niveau \(95\%\).
Le temps de réaction moyen des souris d’un certain élevage à un test déterminé est de 19 minutes. On désire expérimenter un produit pharmaceutique sur ces souris. On administre à 8 d’entre elles une dose de ce produit et l’on observe les temps de réaction suivants (en minutes) :
tpsreact <- c(15, 14, 21, 12, 17, 12, 19, 18)
On suppose les temps de réaction normalement distribués. Au niveau \(\alpha=5\%\), l’action du produit est-elle significative ?
my.t.test <- function(x,mu0,alternative="two.sided"){
n <- length(x)
vstat <- (mean(x)-mu0)/sqrt(var(x)/n)
vpval <- 2*pt(-abs(vstat),n-1)
return(vpval)
}
my.t.test(x=tpsreact,mu0=19)
## [1] 0.03672917
Soit \(X_i\) le temps de réactio nde la souris \(i\) ayant reçu une dose de produit. On suppose \(X_i\sim\mathcal N(\mu,\sigma^2)\)
Hypothèses testées : \(H_0:\mu=19\) vs \(H_1:\mu\neq19\) (test bilatéral de comparaison de l’espérance d’un échantillon gaussien à une valeur théorique)
Niveau du test : \(\alpha=0.05\)
Calcul de la statistique de test et de la p.value :
resttest <- t.test(tpsreact,alternative="two.sided",mu=19,conf.level=0.95)
resttest
##
## One Sample t-test
##
## data: tpsreact
## t = -2.5752, df = 7, p-value = 0.03673
## alternative hypothesis: true mean is not equal to 19
## 95 percent confidence interval:
## 13.2453 18.7547
## sample estimates:
## mean of x
## 16
#names(resttest)
La quinine est une molécule utilisée dans le traitement du paludisme. Des médecins ont constaté que les patients qui suivent un traitement à base de quinine semblent présenter des réactions allergiques au soleil plus fréquentes.
Soit \(X_i\) la variabkle indicatrice de la présence d’une réaction allergique (c’est à dire que \(X_i=1\) si réacion allergique, 0 sinon). Donc \(X_i\sim\mathcal B(p)\) où \(p=P(X_i=1)\)
Hypothèses testées : \(H_0: p=0.2\) vs \(H_1: p>0.2\) (test unilatéral à droite de comparaison d’un pourcentage à une valeur théorique)
Statistique de test : \(\sum X_i=3\) (nombre de réactions allergiques)
Calcul de la p.value :
1-pbinom(2,10,0.2)
## [1] 0.3222005
# ou bien :
?binom.test
binom.test(x=3,n=10,p=0.2,alternative="greater")
##
## Exact binomial test
##
## data: 3 and 10
## number of successes = 3, number of trials = 10, p-value = 0.3222
## alternative hypothesis: true probability of success is greater than 0.2
## 95 percent confidence interval:
## 0.08726443 1.00000000
## sample estimates:
## probability of success
## 0.3
# ou bien
binom.test(x=c(3,7),p=0.2,alternative="greater")
##
## Exact binomial test
##
## data: c(3, 7)
## number of successes = 3, number of trials = 10, p-value = 0.3222
## alternative hypothesis: true probability of success is greater than 0.2
## 95 percent confidence interval:
## 0.08726443 1.00000000
## sample estimates:
## probability of success
## 0.3
Modèle statistique : même modèle avec n=1000
Hypothèses testées : les mêmes
Niveau : 0.05
binom.test(x=237,n=1000,p=0.2,alternative="greater")
##
## Exact binomial test
##
## data: 237 and 1000
## number of successes = 237, number of trials = 1000, p-value = 0.002309
## alternative hypothesis: true probability of success is greater than 0.2
## 95 percent confidence interval:
## 0.2149756 1.0000000
## sample estimates:
## probability of success
## 0.237
vstat <- ((237/1000)-0.2)/sqrt(0.2*(1-0.2)/1000)
vpval <- 1-pnorm(vstat,0,1)
vpval
## [1] 0.00172169
En population générale, la proportion d’enfants dont la maturation osseuse atteint un retard de un an ou plus (par rapport à une certaine norme) est \(p=20\%\). Dans le cadre d’une étude portant sur les conséquences éventuelles d’une exposition modérée au fluor sur la santé des enfants, on prévoit d’observer \(15\) enfants habitant à proximité d’une source de fluor.
Sur les \(15\) enfants observés, \(5\) présentent un retard. Que peut-on conclure (réaliser un test de niveau \(\alpha=5\%\)) ?
Modèle statistique : Soit \(X_i\) la variable aléatoire telle que \(X_i\) si l’enfant \(i\) habitant à proximité d’une source de fluor a un retard de croissance, \(X_i=0\) sinon. \(X_i\sim \mathcal B(p)\)
Hypothèses testées : \(H_0: p=0.2\) vs \(H_0:p\neq 0.2\)
Statistique de test et p-value :
binom.test(5,15,p=0.2,alternative="two.sided")
##
## Exact binomial test
##
## data: 5 and 15
## number of successes = 5, number of trials = 15, p-value = 0.1994
## alternative hypothesis: true probability of success is not equal to 0.2
## 95 percent confidence interval:
## 0.1182411 0.6161963
## sample estimates:
## probability of success
## 0.3333333
On envisage d’ajouter un adjuvant au traitement usuel d’un certain type de rhumatisme. Sans adjuvant, la durée séparant deux crises de récurrence rhumatismale peut être modélisée par une variable aléatoire suivant une distribution normale d’espérance \(\mu=560\) (exprimée en jours). On administre le traitement avec adjuvant à 10 sujets. Les durées de récurrence observées sont les suivantes :
adjv <- c(646, 573, 485, 752, 742, 636, 607, 665, 506, 575)
Au niveau \(\alpha=5\%\), l’adjuvant modifie-t-il significativement la durée moyenne de récurrence ?
Modèle statistique : Soit \(X_i\) (i=1,…,10) la durée de récurrence du sujet \(i\). \(X_i\sim\mathcal N(\mu, \sigma^2)\).
Hypothèses testées : \(H_0 : \mu=560\) vs \(H_1 : \mu\neq 560\)
Statistique de test et p-value :
t.test(adjv,mu=560)
##
## One Sample t-test
##
## data: adjv
## t = 2.0918, df = 9, p-value = 0.06599
## alternative hypothesis: true mean is not equal to 560
## 95 percent confidence interval:
## 555.2197 682.1803
## sample estimates:
## mean of x
## 618.7
Un laboratoire pharmaceutique produit des tubes de pommade dont les poids suivent une distribution normale. On dispose de deux échantillons issus de 2 sites de production différents. Les poids sont donnés dans le tableau suivant :
## Echantillon 1 Echantillon 2
## [1,] 56.4 54.6
## [2,] 57.5 58.2
## [3,] 55.8 60.3
## [4,] 54.3 59.5
## [5,] 58.9 61.1
## [6,] 56.9 58.7
## [7,] 54.8 59.8
## [8,] 54.2 57.5
## [9,] 58.1 NA
Modèle statistique : Soit \(X_i\) (\(i=1,...,9\)) le poids du tube \(i\) de l’échantillon 1. \(X_i\sim\mathcal N(\mu_1,\sigma^2_1)\). Soit \(Y_i\) (\(i=1,...,8\)) le poids du tube \(i\) de l’échantillon 2. \(Y_i\sim\mathcal N(\mu_2,\sigma^2_2)\).Les deux échantillons sont indépendants.
Hypothèses testées : \(H_0 : \sigma^2_1=\sigma^2_2\) vs \(H_1 : \sigma^2_1\neq\sigma^2_2\)
Statistique de test et p-value :
var.test(tableau[,1],tableau[,2])
##
## F test to compare two variances
##
## data: tableau[, 1] and tableau[, 2]
## F = 0.6933, num df = 8, denom df = 7, p-value = 0.6162
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.1415093 3.1396627
## sample estimates:
## ratio of variances
## 0.6933023
Modèle statistique : Même modèle. On suppose en outre : \(\sigma^2_1=\sigma^2_2\)
Hypothèses testées : \(H_0 : \mu_1=\mu_2\) vs \(H_1 : \mu_1\neq\mu_2\)
Statistique de test et p-value : (comparaison des esparances de deux échantillons gaussiens indépendants)
t.test(tableau[,1],tableau[,2],var.equal=TRUE)
##
## Two Sample t-test
##
## data: tableau[, 1] and tableau[, 2]
## t = -2.6578, df = 15, p-value = 0.01791
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.3071929 -0.4733626
## sample estimates:
## mean of x mean of y
## 56.32222 58.71250
Un producteur de lait souhaite comparer le rendement moyen des vaches normandes et hollandaises de son unité de production. Pour ce faire, il a relevé la production de lait (exprimée en kg) de 10 vaches prises au hasard dans chaque groupe. On suppose que la production dans chaque groupe suit une distribution normale.
## Normandes Hollandaises
## [1,] 552 487
## [2,] 464 489
## [3,] 423 470
## [4,] 506 482
## [5,] 497 494
## [6,] 544 500
## [7,] 486 504
## [8,] 531 567
## [9,] 496 482
## [10,] 501 526
Conclure au vu de ces données.
Modèle statistique :
Hypothèses testées :
Statistique de test et p-value :
Conclusion :
On fait une numération globulaire à un groupe de 10 personnes à deux périodes différentes de l’année. Pour chaque sujet, on note les résultats des deux numérations (à multiplier par \(10^5\)) :
## Sujet Janvier Septembre
## 1 1 46 48
## 2 2 38 47
## 3 3 42 44
## 4 4 47 45
## 5 5 48 51
## 6 6 40 44
## 7 7 40 47
## 8 8 43 48
## 9 9 42 47
## 10 10 49 57
On suppose que les sujets sont mutuellement indépendants et suivent une loi gaussienne. Tester au niveau 0.05 l’hypothèse selon laquele les résultats de la numération sont les mêmes aux deux périodes.
Modèle statistique : Soit \(X_i\) la numération en janvier pour le sujet \(i\) en janvier et \(Y_i\) la numération pour le même sujet \(i\) en septembre. \(X_i\sim\mathcal N(\mu_X,\sigma^2_X)\) et \(Y_i\sim\mathcal N(\mu_Y,\sigma^2_Y)\). Les deux échantillons sont appariés.
Hypothèses testées : \(H_0:\mu_X=\mu_Y\) vs \(H1:\mu_X\neq\mu_Y\)
Statistique de test et p-value :
t.test(glob$Janvier,glob$Septembre,paired=TRUE,alternative="two.sided")
##
## Paired t-test
##
## data: glob$Janvier and glob$Septembre
## t = -4.1613, df = 9, p-value = 0.002443
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -6.637562 -1.962438
## sample estimates:
## mean of the differences
## -4.3
t.test(glob$Janvier-glob$Septembre,alternative="two.sided")
##
## One Sample t-test
##
## data: glob$Janvier - glob$Septembre
## t = -4.1613, df = 9, p-value = 0.002443
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -6.637562 -1.962438
## sample estimates:
## mean of x
## -4.3
La quantité de bactéries par \(cm^3\) de lait provenant de 8 vaches différentes est estimée juste après la traite et 24h plus tard. La distribution des résultats obtenus est supposée normale. Au niveau \(\alpha=5\%\), existe-t-il un accroissement significatif du nombre de bactéries par \(cm^3\) de lait au cours du temps ?
## Vache Juste après la\ntraite 24h après la traite
## [1,] 1 12000 14000
## [2,] 2 13000 20000
## [3,] 3 21500 31000
## [4,] 4 17000 28000
## [5,] 5 15000 26000
## [6,] 6 22000 30000
## [7,] 7 11000 16000
## [8,] 8 21000 29000
Modèle statistique :
Hypothèses testées :
Statistique de test et p-value :
Conclusion :
Le tableau suivant donne la répartition (en pourcentages) des quatre groupes sanguins pour l’ensemble de l’Europe:
## O A B AB
## 0.40 0.43 0.12 0.05
Pour un échantillon de 100 individus prélevés au hasard dans la population d’une région montagneuse (et isolée) de l’Europe, on a relevé les effectifs suivants:
## O A B AB
## 35 35 20 10
Y a-t-il conformité entre ces observations et la répartition pour l’ensemble de l’Europe au seuil \(\alpha=5\%\) ?
Modèle statistique : Soit \(X_i\) le groupe sanguin de l’individu de la région isolée (\(X_i\) est une variable qualitative nominale avec \(\Omega_X=\{O,A,B,AB\}\)). \(X_i\sim\mathcal L_X\).
Hypothèses testées : \(H_0: \mathcal L_X=\mathcal L_0\) où \(\mathcal L_0\) est définie par les probabilités P(X=O)=0.4,P(X=A)=0.43,P(X=B)=0.12,P(X=AB)=0.05.
Statistique de test et p-value :
res <- chisq.test(c(O=35,A=35,B=20,AB=10),p=c(O=0.4,A=0.43,B=0.12,AB=0.05))
res
##
## Chi-squared test for given probabilities
##
## data: c(O = 35, A = 35, B = 20, AB = 10)
## X-squared = 12.447, df = 3, p-value = 0.006
names(res)
## [1] "statistic" "parameter" "p.value" "method" "data.name" "observed"
## [7] "expected" "residuals" "stdres"
# ou bien
Oi <- c(O=35,A=35,B=20,AB=10)
n <- sum(Oi)
Ai <- c(O=0.4,A=0.43,B=0.12,AB=0.05)*n
Xsq <- sum((Oi-Ai)^2/Ai); Xsq
## [1] 12.44671
1-pchisq(Xsq,3)
## [1] 0.005999569
Une boîte de Petri a été photographiée au microscope. La photographie est divisée en carrés de surfaces égales. Le dénombrement dans chaque carré des colonies de bactéries donne le tableau suivant:
## [,1] [,2] [,3] [,4] [,5] [,6]
## Nombre de colonies par carré 0 1 2 3 4 5
## Nombre de carrés 10 24 34 23 6 3
Estimer le nombre moyen de colonies par carré.
Peut-on accepter l’hypothèse selon laquelle le nombre de colonies par carré est distribué suivant une loi de Poisson ?
Modèle statistique :
Hypothèses testées :
Statistique de test et p-value :
Conclusion :
Après de nombreuses années d’études cliniques, on a constaté que pour les malades atteints d’un cancer anaplasique bronchopulmonaire primitif, la survie sans traitement, une fois le diagnostic posé, se distribue de la façon suivante :
## [,1] [,2] [,3] [,4]
## Survie (en mois) "<6" "6 à 12" "12 à 24" ">24"
## Fréquence des survies "0.45" "0.35" "0.15" "0.05"
Pour 60 patients soumis à un traitement T associant une polychimoithérapie première suivie d’une radiothérapie on a observé les résultats suivants :
## [,1] [,2] [,3] [,4]
## Survie (en mois) "<6" "6 à 12" "12 à 24" ">24"
## Nombre de patients "6" "24" "12" "18"
Au vu de ces résultats, peut-on conclure (au niveau 5%) que le traitement a un effet significatif sur la survie ?
Modèle statistique :
Hypothèses testées :
Statistique de test et p-value :
Conclusion :
On étudie, chez les enfants asthmatiques, le lien éventuel entre intensité de l’asthme et présence d’eczéma (pendant l’obervation ou antérieurement à celle-ci). L’étude de 200 enfants asthmatiques a fourni les résultats suivants:
## fort moyen léger
## présent 24 6 5
## passé 30 30 10
## jamais 18 54 23
Au seuil \(\alpha=5\%\) peut-on conclure à l’indépendance des deux caractères ?
Modèle statistique : Soit \(X_i\) l’intensité de l’asthme pour l’enfant \(i\) (i=1,…,200) et soit \(Y_i\) la présence d’eczema pour l’enfant \(i\). \(X_i\sim \mathcal L_X\) et \(Y_i\sim\mathcal L_Y\).
Hypothèses testées : $H_0: X et Yind. $ vs. \(H_1:Xet Ynon ind.\)
Statistique de test et p-value :
res <- chisq.test(tab)
res
##
## Pearson's Chi-squared test
##
## data: tab
## X-squared = 30.556, df = 4, p-value = 3.772e-06
res$expected
## fort moyen léger
## présent 12.6 15.75 6.65
## passé 25.2 31.50 13.30
## jamais 34.2 42.75 18.05
Dans une population \(P\) d’hommes qui a été suivie pendant une période de 4 ans, on a sélectionné par tirage au sort 100 sujets qui avaient maigri au cours des 4 ans (poids final inférieur au poids initial de plus de 1kg), 100 sujets dont le poids n’avaient pas varié de plus de 1kg et 100 sujets qui avaient grossi. La répartition des 300 sujets selon l’évolution de leur cholestérolémie est donnée dans le tableau suivant :
## . ..
## PoidsxCholestérolémie a diminué a augmenté
## a diminué 52 48
## n'a pas varié 45 55
## a augmenté 32 68
Au niveau \(\alpha=5\%\), peut-on conclure qu’il existe une relation significative entre les modifications de poids et les modifications de cholestérolémie ?
Deux lots de souris doivent sortir d’un labyrinthe et disposent de 8 sorties correspondant aux 8 directions de la rose des vents. Le premier lot est formé de souris de laboratoire, le second de souris sauvages capturées au Nord-Est du laboratoire.
## DirectionDeFuite SourisDeLAboratoire SourisSauvages
## 1 N 17 26
## 2 NO 25 17
## 3 O 13 9
## 4 SO 28 2
## 5 S 19 3
## 6 SE 20 16
## 7 E 22 33
## 8 NE 16 54
Les directions de fuite sont-elles réparties de la même façon dans les deux groupes?
Lors d’une étude médicale, on a déterminé le génotype de \(n=1000\) personnes. Les observations sont les suivantes :
\(AA\) | \(Aa\) | \(aa\) | |
---|---|---|---|
Effectifs | 652 | 310 | 38 |
Proposer un test permettant de savoir si la population est sous l’équilibre de Hardy-Weinberg (c’est à dire que, pour un locus donné dont la fréquence de l’allèle A est p, alors : \(P(AA)=p^2\), \(P(Aa)=2p(1-p)\) et \(P(aa)=(1-p)^2\)).
La notice d’un sirop contre la toux indique comme valeur de référence pour la moyenne \(m_0\) de l’agent actif \(40 g/\)litre. Le contrôleur de la fabrication décidera d’arrêter provisoirement la production si la moyenne \(m\) inconnue est strictement infèrieure à cette valeur de référence. Il souhaite ne prendre qu’un risque minime c’est-à-dire \(\alpha = 0.01\) en décidant d’arrêter à tort la production.
Le contrôleur de la fabrication prélève de manière indépendantes 9 bouteilles au hasard dans la production et mesure la quantité d’agent actif. Les résultats pour ces 9 dosages indépendants sont les suivants (en g/litre):
38.7, 39.6, 37.9, 40.6, 40.5, 37.7, 41.2, 37.5, 39.1.
On suppose que la quantité d’agent actif conditionnée dans une bouteille de sirop est une variable normale, centrée sur la vraie valeur \(m\) (absence de biais).
Modèle statistique :
Hypothèses testées :
Statistique de test et p-value :
Conclusion :
Un échantillon de 40 poissons de la même espèce a fourni les poids suivant (en g):
poids <- c(61, 82, 92, 97, 101, 104, 109, 118, 131, 155, 69, 82, 93, 97, 101, 104, 110, 120, 133, 145, 105, 110, 121, 138, 166, 74, 85, 93, 99, 102, 106, 110, 125, 140, 171, 79, 87, 94, 99, 102)
Présenter une synthèse de ce tableau (graphiques et paramètres).
La distribution de cette variable peut-elle être considérée comme normale ?
Déterminer un intervalle de confiance à 5% de la moyenne.
La moyenne est-elle significativement différente de 100 avec un risque de 5% ? de 1%?
Plusieurs sujets sont choisis au hasard dans une population et, parmi ceux-ci, certains sont tirés au sort pour recevoir un traitement (Groupe A), les autres devant servir de témoins (Groupe B).
Le traitement est censé modifier le résultat d’un dosage biologique. Les résultats, exprimés en mg/l, sont les suivants :
Groupe A | 6,50 | 5,50 | 8,00 | 7,00 | 6,00 |
---|---|---|---|---|---|
Groupe B | 7,00 | 8,50 | 8,00 | 7,50 | 9,00 |
Quel test choisir ?
Préciser les hypothèses (\(H_0\)) et (\(H_1\)).
Rappeler les conditions d’application du test utilisé.
Peut-on admettre (\(\alpha\) = 5%) que le traitement modifie le paramètre biologique ?
On souhaite étudier l’effet d’une nouvelle stratégie de traitement du diabète sur la glycémie. On dose la glycémie chez 15 sujets avant le début du nouveau protocole (série A) et 3 mois après (série B) :
A | 2,47 | 3,09 | 2,14 | 2,47 | 3,06 | 2,72 | 2,29 | 1,90 | 2,34 | 2,75 | 2,67 | 2,80 | 2,51 | 2,23 | 2,20 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
B | 2,30 | 2,96 | 2,23 | 2,34 | 2,84 | 2,59 | 2,15 | 1,88 | 2,32 | 2,65 | 2,68 | 2,58 | 2,43 | 2,02 | 2,17 |
Le nouveau protocole est-il efficace ?
Cinq rats sont entraînés à imiter un rat leader dans un labyrinthe en T, pour atteindre une source de nourriture. Puis ces rats sont ensuite transférés dans une situation o`u par imitation d’un rat leader, ils apprennent à éviter un choc électrique. Leur comportement dans cette situation est comparé à celui de rats n’ayant pas été entraînés à suivre un leader. La comparaison se fait en terme de nombre d’essais nécessaire à chaque rat pour obtenir 10 réponses d’évitement lors de 10 essais.
Exp | 78 | 64 | 75 | 45 | 82 |
---|---|---|---|---|---|
Témoins | 110 | 70 | 53 | 51 |
Les 5 rats préalablement conditionnés à imiter un congénère réussissent-ils rapidement que les autres à éviter les chocs?
On a mesuré sur Dunaliella Marina, la quantité d’azote protéique par cellule, à la même date et dans des conditions expérimentales identiques, sur une culture témoin et sur une culture préalablement irradiée. On pense que l’irradiation favorise un développement anormal des cellules.
Culture témoin | 1.65 | 2.00 | 1.69 | 2.20 | 2.13 | 1.66 | 2.30 | 1.87 | 1.74 | 1.97 |
---|---|---|---|---|---|---|---|---|---|---|
Culture irradiée | 2.29 | 2.57 | 2.66 | 2.45 | 2.97 | 2.27 | 1.76 | 2.74 | 2.36 |
Interpréter les résultats.
On souhaite comparer trois traitements notés A, B, C contre l’asthme: le traitement B est un nouveau traitement, que l’on souhaite mettre en compétition avec les traitements classiques A et C. On répartit par tirage au sort les patients et on mesure sur chacun la durée en jours avant la prochaine crise d’asthme.
Stocker les données dans une variable de votre choix à l’aide de la fonction . La table ainsi créée a deux colonnes: l’une contenant le délai observé avant la prochaine crise d’asthme, l’autre le type de traitement reçu.
Faire un résumé numérique des données à l’aide de la commande . À l’aide de la commande , faire un résumé numérique par traitement. Représenter graphiquement ces résultats à l’aide de boîtes à moustaches (fonction ). Que peut-on en conclure ?
asthm <- read.table("./data/asthme.dat",header=TRUE)
asthm
## delai groupe
## 1 26 A
## 2 27 A
## 3 35 A
## 4 36 A
## 5 38 A
## 6 38 A
## 7 41 A
## 8 42 A
## 9 45 A
## 10 50 A
## 11 65 A
## 12 29 B
## 13 42 B
## 14 44 B
## 15 44 B
## 16 45 B
## 17 48 B
## 18 48 B
## 19 52 B
## 20 56 B
## 21 56 B
## 22 58 B
## 23 58 B
## 24 60 B
## 25 61 B
## 26 63 B
## 27 63 B
## 28 69 B
## 29 26 C
## 30 26 C
## 31 30 C
## 32 30 C
## 33 33 C
## 34 36 C
## 35 38 C
## 36 38 C
## 37 39 C
## 38 46 C
## 39 47 C
## 40 51 C
## 41 51 C
## 42 56 C
## 43 75 C
reslm <- lm(delai~as.factor(groupe),data=asthm)
anova(reslm)
## Analysis of Variance Table
##
## Response: delai
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(groupe) 2 1426.8 713.42 5.4674 0.00796 **
## Residuals 40 5219.4 130.49
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
On souhaite étudier l’effet du niveau de fertilisation et de la rotation de culture sur le poids des grains de colza. On compare pour cela 2 niveaux de fertilisation (notés 1 pour faible et 2 pour fort) et 3 types de rotation de culture maïs / blé / colza / blé : A (sans enfouissement de paille), B (avec enfouissement de paille) et C (avec quatre années de prairie temporaire entre chaque succession sans enfouissement de paille).
Charger le fichier de données à l’aide de la fonction , contenant le poids moyen mesuré dans chacune des 60 parcelles ainsi que les conditions de fertilisation et de rotation associées.
Tracer les boîtes à moustaches pour les différentes niveaux des facteurs (fonction ).
Tracer le graphe des interactions entre entre les deux facteurs (fonction ).
Tester l’interaction entre les facteurs, l’effet du facteur fertilisation et l’effet du facteur rotation. Enfin, tester l’intérêt du modèle.
On s’intéresse aux performances sportives d’enfants de 12 ans. Chaque enfant passe une dizaine d’épreuves (courses, sauts, lancers, etc.), et les résultats sont synthétisés dans un indice global, noté \(Y\). On cherche à mesurer l’incidence sur ces performances de deux variables: la capacité thoracique \(X_1\) et la force musculaire \(X_2\). Ces trois quantités, \(Y,X_1\) et \(X_2\), sont repérées par rapport à une valeur de référence, notée à chaque fois \(0\), les valeurs positives étant associées aux bonnes performances.
Les mesures associées à un échantillon de 60 enfants sont stockés dans le vecteur , dont vous disposerez sous une fois chargé le fichier .
On adopte, au moins dans un premier temps, le modèle \(H_2\) \[\begin{equation*} Y = a_1 \ X_1 + a_2 \ X_2 + \varepsilon, \end{equation*}\] où \(\varepsilon\) est un résidu non expliqué par le modèle: les \(\varepsilon_i\) associés aux différents individus seront modélisés par des \(\mathcal{N}(0,\sigma^2)\) indépendantes (Notons que le calage des données autour de zéro se traduit par le fait que, quand \(X_1=X_2=0\), alors \(E(Y)=0\)).
Représenter le nuages de points à l’aide de la fonction .
Donner une estimation des paramètres \(a_1\) et \(a_2\).
Tester \(H_2\) contre \(H_0\) : conclusion ?
On adopte maintenant le modèle \(H_1\) \(Y = a \ X_1 + b\). Estimer \(a\) et \(b\), et représenter les données et la droite de régression associée. Observer également les résidus du modèle. Enfin, vous testerez \(H_1\) contre \(H_0\).
Illustration de la régression linéaire avec R sur les données ‘penguins’
pen <- read.csv("./data/penguins.csv")
anova(lm(body_mass_g~bill_length_mm+flipper_length_mm+bill_depth_mm,data=pen))
## Analysis of Variance Table
##
## Response: body_mass_g
## Df Sum Sq Mean Sq F value Pr(>F)
## bill_length_mm 1 77669072 77669072 501.8441 <2e-16 ***
## flipper_length_mm 1 88995501 88995501 575.0277 <2e-16 ***
## bill_depth_mm 1 331766 331766 2.1436 0.1441
## Residuals 338 52311359 154767
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(lm(body_mass_g~bill_length_mm*bill_depth_mm,data=pen))
##
## Call:
## lm(formula = body_mass_g ~ bill_length_mm * bill_depth_mm, data = pen)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1811.29 -355.81 4.35 354.80 1606.90
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -25583.278 2668.939 -9.586 <2e-16 ***
## bill_length_mm 715.006 58.681 12.185 <2e-16 ***
## bill_depth_mm 1484.934 149.405 9.939 <2e-16 ***
## bill_length_mm:bill_depth_mm -36.079 3.297 -10.944 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 503.5 on 338 degrees of freedom
## (2 observations deleted due to missingness)
## Multiple R-squared: 0.6093, Adjusted R-squared: 0.6058
## F-statistic: 175.7 on 3 and 338 DF, p-value: < 2.2e-16