Commandes c()
, seq()
, rep()
,
paste()
et leurs options.
Créer un vecteur contenant la suite des entiers de 1 à 12 de deux manières différentes.
Créer le vecteur
c(0.5,1.0,1.5,2.0,2.5,3.0,3.5,4.0,4.5,5.0)
de trois
manières différentes.
Créer un vecteur contenant tous les multiples de 2 compris entre 1 et 50.
Créer un vecteur contenant 3 fois chacun des 10 chiffres.
Créer un vecteur contenant une fois la lettre A, deux fois la
lettre B, etc., 26 fois la lettre Z. Quelle est la longueur de cette
suite ? (Utiliser la chaîne LETTERS
prédéfinie).
Créer le vecteur
c("individu\ \ 1",\ \ "individu\ 2",\ \ ...,\ "individu\ 100")
.
Commandes sample
, length
,
sort
, rev
, sum
,
table
, etc.
Générer une séquence d’ADN de \(n\) bases (c’est à dire une séquence de
longueur \(n\) construite avec les
lettre “A”, “T”, “G” et “C”). Compter le nombre d’occurrences de chaque
lettre (d’abord sans puis avec la fonction table
). Renvoyer
les indices de la séquence où l’on trouve la lettre “T”.
Créer un vecteur contenant les 100 premiers entiers
échantillonnés aléatoirement. Renvoyer l’emplacement de la valeur
minimale et de la valeur maximale. À partir de ce vecteur, créer les
vecteurs x
et y
des 100 premiers entiers
ordonnés dans l’ordre croissant et décroissant. Concatenez
x
et y
enlever le seul nombre apparaissant
deux fois de suite en le repérant à l’aide de la commande
diff
.
On mesure le taux d’insuline de deux groupes d’individus. Le premier groupe comprend des individus atteints de diabète de type 1 et le deuxième groupe des individus normaux. On observe les valeurs suivantes:
grp1 <- c(14.40 , 13.70 , 14.20 , 17.30 , 13.90 , 13.60 , 15.40 , 10.80 , 12.20 , 13.60)
grp2 <- c(14.00 , 15.90 , 16.90 , 14.10 , 13.80 , 20.30 , 16.00 , 15.30 , 16.10 , 15.90)
Calculez la moyenne, la médiane, la variance et l’écart-type pour chaque groupe.
Représentez les données sous forme de boîtes à moustaches.
On s’intéresse au rendement de champs d’orge traités à différente dose d’engrais et appartenant à différentes variété :
variete <- c("victory", "victory", "victory", "victory", "Golden.rain", "Golden.rain",
"Golden.rain", "Golden.rain", "Marvellous", "Marvellous", "Marvellous",
"Marvellous", "victory", "victory", "victory", "victory",
"Golden.rain", "Golden.rain", "Golden.rain", "Golden.rain", "Marvellous",
"Marvellous", "Marvellous", "Marvellous", "victory", "victory",
"victory", "victory", "Golden.rain", "Golden.rain", "Golden.rain",
"Golden.rain", "Marvellous", "Marvellous", "Marvellous", "Marvellous",
"victory", "victory", "victory", "victory", "Golden.rain", "Golden.rain",
"Golden.rain", "Golden.rain", "Marvellous", "Marvellous", "Marvellous",
"Marvellous", "victory", "victory", "victory", "victory", "Golden.rain",
"Golden.rain", "Golden.rain", "Golden.rain", "Marvellous", "Marvellous",
"Marvellous", "Marvellous", "victory", "victory", "victory", "victory",
"Golden.rain", "Golden.rain", "Golden.rain", "Golden.rain", "Marvellous",
"Marvellous", "Marvellous", "Marvellous")
engrais <- c("0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt",
"0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt",
"0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt",
"0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt",
"0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt",
"0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt",
"0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt",
"0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt",
"0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt",
"0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt",
"0.4cwt", "0.6cwt")
rendement <- c(111, 130, 157, 174, 117, 114, 161, 141, 105, 140, 118, 156, 61, 91, 97,
100, 70, 108, 126, 149, 96, 124, 121, 144, 68, 64, 112, 86, 60, 102, 89,
96, 89, 129, 132, 124, 74, 89, 81, 122, 64, 103, 132, 133, 70, 89, 104,
117, 62, 90, 100, 116, 80, 82, 94, 126, 63, 70, 109, 99, 53, 74, 118, 113,
89, 82, 86, 104, 97, 99, 119, 121)
Tracer la répartition empirique des rendements à l’aide de la
commande boxplot
, en découpant par variété, par dose
d’engrais reçu puis par couple variété/dose.
Calculer la moyenne par variété, par dose d’engrais reçu puis par couple variété/dose. Toujours selon ces mêmes découpages, faites un résumé numérique.
Combien y a-t-il de champs au total? de champ de chaque variété ? Par dose d’engrais ? Par couple (variété,engrais)?
Même question en ne conservant que les champs dont le rendement est supérieur au rendement moyen par groupe.
Même question en ne conservant que les champs dont le rendement est supérieur au rendement moyen total.
Quelle est la meilleure combinaison (engrais,variété) en terme de rendement ? La moins bonne ?
Charger les valeurs numériques des données iris à l’aide de la commande
Donner la dimension de la matrice ainsi construite. Trouver la plus grande valeur observée. Donner le numéro de ligne et de colonne correspondant.
Calculer la moyenne en ligne et en colonne à l’aide de la
commande apply
. Quel individu à la plus grande longueur de
Sépale ? Largeur de Pétale ?
Représenter le graphe des paires de variables à l’aide de la
commande pairs
.
# microarray <- as.matrix(read.table("https://web.stanford.edu/~hastie/ElemStatLearn/datasets/14cancer.xtrain"))
heatmap
.On utilise un programme permettant de calculer le nombre d’occurences des 4 nucléotides “A”, “T”, “G” et “C” dans une séquence d’ADN. Celui-ci renvoie une liste comportant 4 éléments, chacun étant un vecteurs décrivant les indices des occurrences des lettres correspondantes.
Considérons la séquence “AATTCCTCCCGTGACGAAATATA”. Créer l’objet
R
correspondant à l’exécution du programme
ci-dessus.
Déterminer le nombre d’occurences de chaque lettre dans la séquence à partir de cette liste.
On dispose maintenant de 3 chaînes “ATTCG”“,”CCGT”” et “GCGAGG”. Créer une liste comprenant 3 entrées, chacune étant une liste comme celle décrite aux deux questions précédentes.
Déterminer la longueur de chaque séquence à partir de cette liste
Déterminer le nombre d’occurences de chaque nucléotide dans
chacune des listes. Renvoyer le résultat sous forme de matrice 3 x 4 (on
pourra s’aider de la fonction sapply
).
Charger le tableau de données diamonds
de la
librairie ggplot2
(commande :
library(ggplot2); data(diamonds)
). Vérifier qu’il s’agit
bien d’un data.frame
. Déterminer les noms des variables
considérées et leur nature. Faire un résumé numérique.
À l’aide de la commande subset
, extraire les entrées
du tableau telles que
les diamands soient de qualité Premium
le carat soit supérieur à 3
le volume (approximatif) soit supérieur à \(500 mm^3\)
la qualité soit idéale, le prix inférieur à 1000 et le carat supérieur à .5. Déterminer la répartition des coleurs pour ce sous-ensemble
Déterminer le prix moyen par classe de qualité. Même question par
intervalle de carat (créer une variable factorielle composée de 6
intervalles à l’aide la fonction cut
).
Tracer le volume en fonction du prix, le carat en fonction du prix. Représenter les boxplot de carat, prix et profondeur par classe de qualité et par couleur.
Pour chaque triplet (cut,color,clarity), renvoyer le prix moyen.
Construire une fonction qui calcule la valeur de la fonction \(f: x \mapsto sin(x)^2+\sqrt{|x-3|}\)
Tracer la courbe représentative de la fonction \(f\) sur le domaine \([-6,3]\)
Reprendre les mêmes questions pour la fonction : $$g : x
\[\begin{cases} sin(x)^2log(x) & \text{si } x> 0 sin(x)^2x & \text{si } x\leq0 \end{cases}\]$$
La formule du calcul de l’indice de masse corporelle (IMC) est la suivante : \[IMC=\frac{poids(kg)}{taille(m)^2}\] l’IMC permet d’évaluer les risques liés à un surpoids chez l’adulte :
## ICM (kg/m^2) Classification Risque
## [1,] "<18.5" "Poids insuffisant" "Accru"
## [2,] "18.5 à 24.9" "Poids normal" "Moindre"
## [3,] "25 à 29.9" "Surpoids" "Accru"
## [4,] ">30" "Obésité" "Elevé"
Créer une fonction qui prend en entrée le poids et la taille d’un individu et qui renvoie en sortie son \(IMC\).
Calculer l’\(IMC\) d’une personne :
Créer une seconde fonction qui prend en argument le poids et la taille d’un individu et qui renvoie en sortie sa classification.
Quelle est la classification des 4 personnes de la question 2.
Créer un tableau à 24 lignes et 3 colonnes en lisant le fichier
chromosomes.txt
avec la fonction read.table
.
Chaque ligne représente un chromosome humain (22 autosome, 2 chromosomes
sexuels) et les colonnes sont respectivement leur noms, nombre de gènes,
et longueur en bases.
Représenter Le nombre de gènes en fonction du nombre de bases.
Ajouter une colonne supplémentaire au tableau qui spécifie pour chaque chromosome s’il est autosome ou pas.
Calculer le nombre total de bases d’un génome humain (pour un homme, puis pour une femme).
Exporter le tableau ainsi créé dans un fichier
chromosomes2.txt
Charger le jeu de données hdpg
du package
ade4
et lire son descriptif.
Nous considérerons le tableau hdpg$ind
qui décrit
l’échantillon des 1066 individus de l’étude.
Combien de populations différentes participent à l’étude ?
Dresser les tableaux des effectifs des variables population, région et sexe.
Transformer ces tableaux en tableaux de fréquences.
Représenter vos tableaux de fréquence par des diagrammes en bâton, et par des camemberts.
Représenter les fréquences cumulées.
Commenter les représentations.
Un sondage est réalisé auprès de 100 individus pour savoir où va leur
préférence parmi un panel représentatif de marques de bière. Les
résultats obtenus se trouvent dans le fichier
bieres.csv
.
Lire le fichier de données sous forme de
data.frame
.
Combien de marques sont considérées ? Quelles sont-elles ?
Compter les occurrences de chacune des marques de bières. Les représenter sous la forme de graphe en barres. Représenter cette distribution sous forme de camembert en choisissant les couleurs vous même. Utiliser une seule fenêtre graphique pour les deux figures.
Pour étudier l’effet d’un somnifère, on mesure chez 20 patients le nombre d’heures de sommeil supplémentaires par rapport à la durée moyenne de leur nuit sans traitement. On obtient les résultats suivants:
extra <- c( -1.6 , -0.2 , -1.2 , -0.1 , 3.4 , 3.7 , 0.8 , 0.0 , 2.0 ,1.9 , 0.8 , 1.1 , 0.1 , -0.1 , 4.4 , 5.5 , 1.6 , 4.6 , 3.4 )
Saisir ces données dans un vecteur.
Faire un résumé numérique.
Tracer la fonction de répartition empirique puis l’histogramme normalisé des données dans la même fenêtre graphique.
Ces données sont en fait issues de deux groupes d’individus:
apposer une variable indiquant le groupe associé à l’observation de la
variable extra
sachant que les 10 premiers individus sont
issus du groupe 1 et les 10 suivants du groupe 2 (utiliser, par exemple,
la commande data.frame
). Faire un résumé statistique pour
chaque groupe et tracer alors les boîtes à moustaches des observations
selon les groupes. Qu’en pensez-vous ?
Le coefficient de Gini permet de mesurer l’inégalité des revenus dans une population. Si tous les individus gagnent le même salaire le coefficient de Gini vaut \(0\) (situation égalitaire), alors que si un seul individu gagne tous le revenu disponible et les autres rien l’index de gini vaut \(1\). Les états-unis ont par exemple un coefficient de Gini de \(0.47\).
Charger le jeu de données gini.Rdata
.
Sélectionner les lignes du tableau correspondant à l’année 2007.
Tracer l’histogramme des coefficients.
Tracer l’histogramme lissé des coefficients.
Tracer le boxplot des coefficients.
Tracer un diagramme des fréquences cumulées des coefficients.
Écrire une fonction R qui rende les pays de coefficient Gini d’index maximum et minimum.
Classer les pays par leur coefficient de Gini.
Calculer la moyenne, la variance, le coefficient d’asymétrie, le coefficient d’aplatissement pour la distribution des coefficients de gini. Commenter.
Combien de pays sont plus égalitaires que la France en europe.
L’aire d’un disque de rayon \(R\) est \(\pi R^2\). Soit un carré \([A,B,C,D]\) avec \(A(-1,-1)\), \(B(-1,1)\), \(C(1,1)\) et \(D(1,-1)\). La distance d’un point de coordonnées \((x,y)\) à l’origine est \(x^2+y^2\).
Soit la fonction :
data.points <- function(n,R){
x <- runif(n,-R,R)
y <- runif(n,-R,R)
return(data.frame(x,y))
}
Notons X la variable aléatoire correspondant au niveau d’expression (normalisé) d’un gène G. De nombreuses expériences ont permis d’établir que \(X\sim N(0.2,1.3)\).
Représenter grapgiquement la distribution de \(X\).
Déterminer les probabibilités suivantes:
Une modification des réglages du scaner de la plateforme conduit à multiplier par \(1.2\) toutes les intensités \(X\). Quelles est la loi de la nouvelle variable aléatoire \(Y\) correspondant au niveau d’expression du gène G?
On suppose que la glycémie est distribuée normalement dans la population, avec une moyenne de 1 g/l et un écart-type de 0,03 g/l. On mesure la glycémie chez un individu.
inférieure à 1,06
supérieure à 0,9985
comprise entre 0,94 et 1,08
Pour estimer la densité bactérienne d une suspension, on ensemence avec le même volume \(v\) 10 boîtes de Pétri sur lesquelles on compte les nombres suivants de colonies (qui sont aussi les nombres de bactéries présentes dans chacun des volumes \(v\)) :
nbbact <- c(47, 47, 55, 47, 56, 56, 38, 42, 48, 45)
On note \(N\) le nombre de bactéries présentes dans un volume \(v\).
Estimer l’espérance \(\mu\) de \(N\).
Estimer la variance \(\sigma^2\) de \(N\).
On suppose que \(N\) suit une distribution de Poisson.
Donner une autre estimation de \(\sigma^2\) que celle obtenue en 2.
Pour déterminer la concentration en glucose d un échantillon sanguin, on effectue des dosages à l aide d une technique expérimentale donnée. On considère que le résultat de chaque dosage est une variable aléatoire normale. On effectue 10 dosages indépendants, qui donnent les résultats suivants (en g/l) :
dosages <- c(0.96, 1.04, 1.08, 0.92, 1.04, 1.18, 0.99, 0.99, 1.25, 1.08)
Calculer un interval de confiance de cette concentration de niveau \(95\%\).
Le temps de réaction moyen des souris d’un certain élevage à un test déterminé est de 19 minutes. On désire expérimenter un produit pharmaceutique sur ces souris. On administre à 8 d’entre elles une dose de ce produit et l’on observe les temps de réaction suivants (en minutes) :
tpsreact <- c(15, 14, 21, 12, 17, 12, 19, 18)
On suppose les temps de réaction normalement distribués. Au niveau \(\alpha=5\%\), l’action du produit est-elle significative ?
(Facultatif) Ecrire une fonction ‘my.t.test’ prenant en entrée un vecteur d’observations et une valeur \(\mu_0\) et retournant la p-value du test. Utiliser la fonction pour tester l’action du produit.
Refaire le test en utilisant la fonciton ‘t.test’
La quinine est une molécule utilisée dans le traitement du paludisme. Des médecins ont constaté que les patients qui suivent un traitement à base de quinine semblent présenter des réactions allergiques au soleil plus fréquentes.
Pour étudier ce phénomène, une étude préliminaire portant sur 10 patients suivant un traitement à base de quinine a été mise en place. Des études antérieures on permis d’établir que le pourcentage d’individus dans la population générale qui présente une réaction allergique au soleil est de \(20\%\). Sur les 10 patients traités, \(3\) ont eu une réaction allergique. Proposez un test statistique pour vérifier l’hypothèse des médecins et conclure.
Une plus grande étude portant sur 1000 patients suivant un traitement à base de quinine a été mise en place. Sur les 1000 patients traités, \(237\) ont eu une réaction allergique. En utilisant l’approximation gaussienne, proposez un nouveau test statistique pour vérifier l’hypothèse des médecins et conclure.
En population générale, la proportion d’enfants dont la maturation osseuse atteint un retard de un an ou plus (par rapport à une certaine norme) est \(p=20\%\). Dans le cadre d’une étude portant sur les conséquences éventuelles d’une exposition modérée au fluor sur la santé des enfants, on prévoit d’observer \(15\) enfants habitant à proximité d’une source de fluor.
Construire un test statistique de niveau \(\alpha=5\%\) permettant de déterminer si une exposition au fluor augmente significativement le risque d’avoir un retard de la maturation osseuse.
Quelle est la puissance du test si le risque d’avoir un retard de la maturation osseuse pour un enfant exposé au fluor est en réalité de \(30\%\) ?
Sur les \(15\) enfants observés, \(5\) présentent un retard. Que peut-on conclure ?
On envisage d’ajouter un adjuvant au traitement usuel d’un certain type de rhumatisme. Sans adjuvant, la durée séparant deux crises de récurrence rhumatismale peut être modélisée par une variable aléatoire suivant une distribution normale d’espérance \(\mu=560\) (exprimée en jours). On administre le traitement avec adjuvant à 10 sujets. Les durées de récurrence observées sont les suivantes :
adjv <- c(646, 573, 485, 752, 742, 636, 607, 665, 506, 575)
Au niveau \(\alpha=5\%\), l’adjuvant modifie-t-il significativement la durée moyenne de récurrence ?
Un laboratoire pharmaceutique produit des tubes de pommade dont les poids suivent une distribution normale. On dispose de deux échantillons issus de 2 sites de production différents. Les poids sont donnés dans le tableau suivant :
## Echantillon 1 Echantillon 2
## [1,] 56.4 54.6
## [2,] 57.5 58.2
## [3,] 55.8 60.3
## [4,] 54.3 59.5
## [5,] 58.9 61.1
## [6,] 56.9 58.7
## [7,] 54.8 59.8
## [8,] 54.2 57.5
## [9,] 58.1 NA
Les variances des 2 échantillons sont-elles significativement différentes ?
Le poids des tubes est-il significativement différent d’un site de production à l’autre ?
Un producteur de lait souhaite comparer le rendement moyen des vaches normandes et hollandaises de son unité de production. Pour ce faire, il a relevé la production de lait (exprimée en kg) de 10 vaches prises au hasard dans chaque groupe. On suppose que la production dans chaque groupe suit une distribution normale.
## Normandes Hollandaises
## [1,] 552 487
## [2,] 464 489
## [3,] 423 470
## [4,] 506 482
## [5,] 497 494
## [6,] 544 500
## [7,] 486 504
## [8,] 531 567
## [9,] 496 482
## [10,] 501 526
Conclure au vu de ces données.
On fait une numération globulaire à un groupe de 10 personnes à deux périodes différentes de l’année. Pour chaque sujet, on note les résultats des deux numérations (à multiplier par \(10^5\)) :
## Sujet Janvier Septembre
## [1,] 1 46 48
## [2,] 2 38 47
## [3,] 3 42 44
## [4,] 4 47 45
## [5,] 5 48 51
## [6,] 6 40 44
## [7,] 7 40 47
## [8,] 8 43 48
## [9,] 9 42 47
## [10,] 10 49 57
On suppose que les sujets sont mutuellement indépendants et suivent une loi gaussienne. Tester au niveau 0.05 l’hypothèse selon laquele les résultats de la numération sont les mêmes aux deux périodes.
La quantité de bactéries par \(cm^3\) de lait provenant de 8 vaches différentes est estimée juste après la traite et 24h plus tard. La distribution des résultats obtenus est supposée normale. Au niveau \(\alpha=5\%\), existe-t-il un accroissement significatif du nombre de bactéries par \(cm^3\) de lait au cours du temps ?
## Vache Juste après la\ntraite 24h après la traite
## [1,] 1 12000 14000
## [2,] 2 13000 20000
## [3,] 3 21500 31000
## [4,] 4 17000 28000
## [5,] 5 15000 26000
## [6,] 6 22000 30000
## [7,] 7 11000 16000
## [8,] 8 21000 29000
Le tableau suivant donne la répartition (en pourcentages) des quatre groupes sanguins pour l’ensemble de l’Europe:
## O A B AB
## 0.40 0.43 0.12 0.05
Pour un échantillon de 100 individus prélevés au hasard dans la population d’un région montagneuse (et isolé) de l’Europe, on a relevé les effectifs suivants:
## O A B AB
## 35 35 20 10
Y a-t-il conformité entre ces observations et la répartition pour l’ensemble de l’Europe au seuil \(\alpha=5\%\) ?
Une boîte de Petri a été photographiée au microscope. La photographie est divisée en carrés de surfaces égales. Le dénombrement dans chaque carré des colonies de bactéries donne le tableau suivant:
## [,1] [,2] [,3] [,4] [,5] [,6]
## Nombre de colonies par carré 0 1 2 3 4 5
## Nombre de carrés 10 24 34 23 6 3
Estimer le nombre moyen de colonies par carré.
Peut-on accepter l’hypothèse selon laquelle le nombre de colonies par carré est distribué suivant une loi de Poisson ?
Après de nombreuses années d’études cliniques, on a constaté que pour les malades atteints d’un cancer anaplasique bronchopulmonaire primitif, la survie sans traitement, une fois le diagnostic posé, se distribue de la façon suivante :
## [,1] [,2] [,3] [,4]
## Survie (en mois) "<6" "6 à 12" "12 à 24" ">24"
## Fréquence des survies "0.45" "0.35" "0.15" "0.05"
Pour 60 patients soumis à un traitement T associant une polychimoithérapie première suivie d’une radiothérapie on a observé les résultats suivants :
## [,1] [,2] [,3] [,4]
## Survie (en mois) "<6" "6 à 12" "12 à 24" ">24"
## Nombre de patients "6" "24" "12" "18"
Au vu de ces résultats, peut-on conclure (au niveau 5%) que le traitement a un effet significatif sur la survie ?
On étudie, chez les enfants asthmatiques, le lien éventuel entre intensité de l’asthme et présence d’eczéma (pendant l’obervation ou antérieurement à celle-ci). L’étude de 200 enfants asthmatiques a fourni les résultats suivants:
## fort moyen léger
## présent 24 6 5
## passé 30 30 10
## jamais 18 54 23
Sous l’hypothèse d’indépendance des deux caractères asthme et eczéma, calculer les effectifs théoriques des 9 classes.
Au seuil \(\alpha=5\%\) peut-on conclure à l’indépendance des deux caractères ?
Dans une population \(P\) d’hommes qui a été suivie pendant une période de 4 ans, on a sélectionné par tirage au sort 100 sujets qui avaient maigri au cours des 4 ans (poids final inférieur au poids initial de plus de 1kg), 100 sujets dont le poids n’avaient pas varié de plus de 1kg et 100 sujets qui avaient grossi. La répartition des 300 sujets selon l’évolution de leur cholestérolémie est donnée dans le tableau suivant :
## . ..
## PoidsxCholestérolémie a diminué a augmenté
## a diminué 52 48
## n'a pas varié 45 55
## a augmenté 32 68
Au niveau \(\alpha=5\%\), peut-on conclure qu’il existe une relation significative entre les modifications de poids et les modifications de cholestérolémie ?
Deux lots de souris doivent sortir d’un labyrinthe et disposent de 8 sorties correspondant aux 8 directions de la rose des vents. Le premier lot est formé de souris de laboratoire, le second de souris sauvages capturées au Nord-Est du laboratoire.
## DirectionDeFuite SourisDeLAboratoire SourisSauvages
## 1 N 17 26
## 2 NO 25 17
## 3 O 13 9
## 4 SO 28 2
## 5 S 19 3
## 6 SE 20 16
## 7 E 22 33
## 8 NE 16 54
Les directions de fuite sont-elles réparties de la même façon dans les deux groupes?
Lors d’une étude médicale, on a déterminé le génotype de \(n=1000\) personnes. Les observations sont les suivantes:
| \(AA\) | \(Aa\) | \(aa\) |
---|
Effectifs | 652 | 310 | 38 |
Proposer un test permettant de savoir si la population est sous l’équilibre d’Hardy-Weinberg.
La notice d’un sirop contre la toux indique comme valeur de référence pour la moyenne \(m_0\) de l’agent actif \(40 g/\)litre. Le contr^oleur de la fabrication décidera d’arrêter provisoirement la production si la moyenne \(m\) inconnue est strictement inf`erieure `a cette valeur de référence. Il souhaite ne prendre qu’un risque minime c’est-`a-dire \(\alpha = 0.01\) en décidant d’arrêter `a tort la production.
Le contr^oleur de la fabrication prél`eve de mani`ere indépendantes 9 bouteilles au hasard dans la production et mesure la quantité d’agent actif. Les résultats pour ces 9 dosages indépendants sont les suivants (en g/litre):
38.7, 39.6, 37.9, 40.6, 40.5, 37.7, 41.2, 37.5, 39.1.
On suppose que la quantité d’agent actif conditionnée dans une bouteille
de sirop est une variable normale, centrée sur la vraie valeur \(m\) (absence de biais). Sous ,
Un échantillon de 40 poissons de la même esp`ece a fourni les poids suivant (en g):
61, 82, 92, 97, 101, 104, 109, 118, 131, 155, 69, 82, 93, 97, 101, 104, 110, 120, 133, 145, 105, 110, 121, 138, 166, 74, 85, 93, 99, 102, 106, 110, 125, 140, 171, 79, 87, 94, 99, 102
Plusieurs sujets sont choisis au hasard dans une population et, parmi
ceux-ci, certains sont tirés au sort pour recevoir un traitement (Groupe
A), les autres devant servir de témoins (Groupe B).
Le traitement est censé modifier le résultat d’un dosage biologique. Les
résultats, exprimés en mg/l, sont les suivants :
roupe A | 6,50 |5,50|8,00|7,00|6,00 |
---|
roupe B|7,00|8,50|8,00|7,50|9,00|7,20|8,20 |
On souhaite étudier l’effet d’une nouvelle stratégie de traitement du diabète sur la glycémie. On dose la glycémie chez 15 sujets avant le début du nouveau protocole (série A) et 3 mois après (série B) :
| 2,47| 3,09| 2,14| 2,47| 3,06| 2,72| 2,29| 1,90| 2,34| 2,75| 2,67| 2,80| 2,51| 2,23| 2,20 |
---|
| 2,30| 2,96| 2,23| 2,34 |2,84| 2,59| 2,15| 1,88| 2,32| 2,65| 2,68| 2,58| 2,43| 2,02| 2,17 |
Le nouveau protocole est-il efficace ?
Cinq rats sont entraînés à imiter un rat leader dans un labyrinthe en T, pour atteindre une source de nourriture. Puis ces rats sont ensuite transférés dans une situation o`u par imitation d’un rat leader, ils apprennent à éviter un choc électrique. Leur comportement dans cette situation est comparé à celui de rats n’ayant pas été entraînés à suivre un leader. La comparaison se fait en terme de nombre d’essais nécessaire à chaque rat pour obtenir 10 réponses d’évitement lors de 10 essais.
xp|78|64|75|45|82 |
---|
émoins|110|70|53|51 |
Les 5 rats préalablement conditionnés à imiter un congénère réussissent-ils rapidement que les autres à éviter les chocs?
On a mesuré sur Dunaliella Marina, la quantité d’azote protéique par cellule, à la même date et dans des conditions expérimentales identiques, sur une culture témoin et sur une culture préalablement irradiée. On pense que l’irradiation favorise un développement anormal des cellules.
ulture témoin|1.65 | 2.00 | 1.69 | 2.20 | 2.13 | 1.66 | 2.30 | 1.87 | 1.74 | 1.97 |
---|
ulture irradiée| 2.29 | 2.57 | 2.66 | 2.45 | 2.97 | 2.27 | 1.76 | 2.74 | 2.36| |
Interpréter les résultats.
On souhaite comparer trois traitements notés A, B, C contre l’asthme: le traitement B est un nouveau traitement, que l’on souhaite mettre en compétition avec les traitements classiques A et C. On répartit par tirage au sort les patients et on mesure sur chacun la durée en jours avant la prochaine crise d’asthme.
On souhaite étudier l’effet du niveau de fertilisation et de la rotation de culture sur le poids des grains de colza. On compare pour cela 2 niveaux de fertilisation (notés 1 pour faible et 2 pour fort) et 3 types de rotation de culture maïs / blé / colza / blé : A (sans enfouissement de paille), B (avec enfouissement de paille) et C (avec quatre années de prairie temporaire entre chaque succession sans enfouissement de paille).
On s’intéresse aux performances sportives d’enfants de 12 ans. Chaque enfant passe une dizaine d’épreuves (courses, sauts, lancers, etc.), et les résultats sont synthétisés dans un indice global, noté \(Y\). On cherche à mesurer l’incidence sur ces performances de deux variables: la capacité thoracique \(X_1\) et la force musculaire \(X_2\). Ces trois quantités, \(Y,X_1\) et \(X_2\), sont repérées par rapport à une valeur de référence, notée à chaque fois \(0\), les valeurs positives étant associées aux bonnes performances.
Les mesures associées à un échantillon de 60 enfants sont stockés dans le vecteur , dont vous disposerez sous une fois chargé le fichier .
On adopte, au moins dans un premier temps, le modèle \(H_2\) \[\begin{equation*} Y = a_1 \ X_1 + a_2 \ X_2 + \varepsilon, \end{equation*}\] où \(\varepsilon\) est un résidu non expliqué par le modèle: les \(\varepsilon_i\) associés aux différents individus seront modélisés par des \(\mathcal{N}(0,\sigma^2)\) indépendantes (Notons que le calage des données autour de zéro se traduit par le fait que, quand \(X_1=X_2=0\), alors \(E(Y)=0\)).