Vecteurs

Exercice 1

Commandes c(), seq(), rep(), paste() et leurs options.

  1. Créer un vecteur contenant la suite des entiers de 1 à 12 de deux manières différentes.

  2. Créer le vecteur c(0.5,1.0,1.5,2.0,2.5,3.0,3.5,4.0,4.5,5.0) de trois manières différentes.

  3. Créer un vecteur contenant tous les multiples de 2 compris entre 1 et 50.

  4. Créer un vecteur contenant 3 fois chacun des 10 chiffres.

  5. Créer un vecteur contenant une fois la lettre A, deux fois la lettre B, etc., 26 fois la lettre Z. Quelle est la longueur de cette suite ? (Utiliser la chaîne LETTERS prédéfinie).

  6. Créer le vecteur c("individu\ \ 1",\ \ "individu\ 2",\ \ ...,\ "individu\ 100").

Exercice 2

Commandes sample, length, sort, rev, sum, table, etc.

  1. Générer une séquence d’ADN de \(n\) bases (c’est à dire une séquence de longueur \(n\) construite avec les lettre “A”, “T”, “G” et “C”). Compter le nombre d’occurrences de chaque lettre (d’abord sans puis avec la fonction table). Renvoyer les indices de la séquence où l’on trouve la lettre “T”.

  2. Créer un vecteur contenant les 100 premiers entiers échantillonnés aléatoirement. Renvoyer l’emplacement de la valeur minimale et de la valeur maximale. À partir de ce vecteur, créer les vecteurs x et y des 100 premiers entiers ordonnés dans l’ordre croissant et décroissant. Concatenez x et y enlever le seul nombre apparaissant deux fois de suite en le repérant à l’aide de la commande diff.

Exercice 3

On mesure le taux d’insuline de deux groupes d’individus. Le premier groupe comprend des individus atteints de diabète de type 1 et le deuxième groupe des individus normaux. On observe les valeurs suivantes:

grp1 <-  c(14.40 , 13.70 , 14.20 , 17.30 , 13.90 , 13.60 , 15.40 , 10.80 , 12.20 , 13.60)
grp2 <-  c(14.00 , 15.90 , 16.90 , 14.10 , 13.80 , 20.30 , 16.00 , 15.30 , 16.10 , 15.90)  
  1. Calculez la moyenne, la médiane, la variance et l’écart-type pour chaque groupe.

  2. Représentez les données sous forme de boîtes à moustaches.

Facteurs

Exercice 4

On s’intéresse au rendement de champs d’orge traités à différente dose d’engrais et appartenant à différentes variété :

variete <- c("victory", "victory", "victory", "victory", "Golden.rain", "Golden.rain",
             "Golden.rain", "Golden.rain", "Marvellous",  "Marvellous",  "Marvellous",
             "Marvellous",  "victory",     "victory",     "victory",     "victory",
             "Golden.rain", "Golden.rain", "Golden.rain", "Golden.rain", "Marvellous",
             "Marvellous",  "Marvellous",  "Marvellous",  "victory",     "victory",
             "victory", "victory", "Golden.rain", "Golden.rain", "Golden.rain",
             "Golden.rain", "Marvellous",  "Marvellous",  "Marvellous",  "Marvellous",
             "victory", "victory", "victory", "victory", "Golden.rain", "Golden.rain",
             "Golden.rain", "Golden.rain", "Marvellous",  "Marvellous",  "Marvellous",
             "Marvellous", "victory", "victory", "victory", "victory", "Golden.rain",
             "Golden.rain", "Golden.rain", "Golden.rain", "Marvellous",  "Marvellous",
             "Marvellous", "Marvellous", "victory", "victory", "victory", "victory", 
             "Golden.rain", "Golden.rain", "Golden.rain", "Golden.rain", "Marvellous",
             "Marvellous", "Marvellous", "Marvellous")
engrais <- c("0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", 
             "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt",
             "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt",
             "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt",
             "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt",
             "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt",
             "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", 
             "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", 
             "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", 
             "0.6cwt", "0.0cwt", "0.2cwt", "0.4cwt", "0.6cwt", "0.0cwt", "0.2cwt",
             "0.4cwt", "0.6cwt")
rendement <- c(111, 130, 157, 174, 117, 114, 161, 141, 105, 140, 118, 156, 61, 91, 97,
               100, 70, 108, 126, 149, 96, 124, 121, 144, 68, 64, 112, 86, 60, 102, 89,
               96, 89, 129, 132, 124, 74, 89, 81, 122, 64, 103, 132, 133, 70, 89, 104,
               117, 62, 90, 100, 116, 80, 82, 94, 126, 63, 70, 109, 99, 53, 74, 118, 113,
               89, 82, 86, 104, 97, 99, 119, 121)
  1. Tracer la répartition empirique des rendements à l’aide de la commande boxplot, en découpant par variété, par dose d’engrais reçu puis par couple variété/dose.

  2. Calculer la moyenne par variété, par dose d’engrais reçu puis par couple variété/dose. Toujours selon ces mêmes découpages, faites un résumé numérique.

    1. Combien y a-t-il de champs au total? de champ de chaque variété ? Par dose d’engrais ? Par couple (variété,engrais)?

    2. Même question en ne conservant que les champs dont le rendement est supérieur au rendement moyen par groupe.

    3. Même question en ne conservant que les champs dont le rendement est supérieur au rendement moyen total.

    4. Quelle est la meilleure combinaison (engrais,variété) en terme de rendement ? La moins bonne ?

Matrices, listes , tableaux de données

Exercice 5

  1. Charger les valeurs numériques des données iris à l’aide de la commande

  2. Donner la dimension de la matrice ainsi construite. Trouver la plus grande valeur observée. Donner le numéro de ligne et de colonne correspondant.

  3. Calculer la moyenne en ligne et en colonne à l’aide de la commande apply. Quel individu à la plus grande longueur de Sépale ? Largeur de Pétale ?

  4. Représenter le graphe des paires de variables à l’aide de la commande pairs.

Exercice 6

  1. Charger les valeurs numériques de données d’expression de gènes pour différents types de cancers à l’aide de la commande :
# microarray <- as.matrix(read.table("https://web.stanford.edu/~hastie/ElemStatLearn/datasets/14cancer.xtrain"))
  1. Calculer la covariance entre les échantillons. Représenter le résultat sous forme d’image. Transformer la covariance en corrélation et représenter à nouveau cette image. Représenter ensuite le résultat de la fonction heatmap.

Exercice 7

On utilise un programme permettant de calculer le nombre d’occurences des 4 nucléotides “A”, “T”, “G” et “C” dans une séquence d’ADN. Celui-ci renvoie une liste comportant 4 éléments, chacun étant un vecteurs décrivant les indices des occurrences des lettres correspondantes.

    1. Considérons la séquence “AATTCCTCCCGTGACGAAATATA”. Créer l’objet R correspondant à l’exécution du programme ci-dessus.

    2. Déterminer le nombre d’occurences de chaque lettre dans la séquence à partir de cette liste.

    1. On dispose maintenant de 3 chaînes “ATTCG”“,”CCGT”” et “GCGAGG”. Créer une liste comprenant 3 entrées, chacune étant une liste comme celle décrite aux deux questions précédentes.

    2. Déterminer la longueur de chaque séquence à partir de cette liste

    3. Déterminer le nombre d’occurences de chaque nucléotide dans chacune des listes. Renvoyer le résultat sous forme de matrice 3 x 4 (on pourra s’aider de la fonction sapply).

Exercice 8

  1. Charger le tableau de données diamonds de la librairie ggplot2 (commande : library(ggplot2); data(diamonds)). Vérifier qu’il s’agit bien d’un data.frame. Déterminer les noms des variables considérées et leur nature. Faire un résumé numérique.

  2. À l’aide de la commande subset, extraire les entrées du tableau telles que

    • les diamands soient de qualité Premium

    • le carat soit supérieur à 3

    • le volume (approximatif) soit supérieur à \(500 mm^3\)

    • la qualité soit idéale, le prix inférieur à 1000 et le carat supérieur à .5. Déterminer la répartition des coleurs pour ce sous-ensemble

  3. Déterminer le prix moyen par classe de qualité. Même question par intervalle de carat (créer une variable factorielle composée de 6 intervalles à l’aide la fonction cut).

  4. Tracer le volume en fonction du prix, le carat en fonction du prix. Représenter les boxplot de carat, prix et profondeur par classe de qualité et par couleur.

  5. Pour chaque triplet (cut,color,clarity), renvoyer le prix moyen.

Programmation

Exercice 9

  1. Construire une fonction qui calcule la valeur de la fonction \(f: x \mapsto sin(x)^2+\sqrt{|x-3|}\)

  2. Tracer la courbe représentative de la fonction \(f\) sur le domaine \([-6,3]\)

  3. Reprendre les mêmes questions pour la fonction : $$g : x

    \[\begin{cases} sin(x)^2log(x) & \text{si } x> 0 sin(x)^2x & \text{si } x\leq0 \end{cases}\]

    $$

Exercice 10

La formule du calcul de l’indice de masse corporelle (IMC) est la suivante : \[IMC=\frac{poids(kg)}{taille(m)^2}\] l’IMC permet d’évaluer les risques liés à un surpoids chez l’adulte :

##      ICM (kg/m^2)  Classification      Risque   
## [1,] "<18.5"       "Poids insuffisant" "Accru"  
## [2,] "18.5 à 24.9" "Poids normal"      "Moindre"
## [3,] "25 à 29.9"   "Surpoids"          "Accru"  
## [4,] ">30"         "Obésité"           "Elevé"
  1. Créer une fonction qui prend en entrée le poids et la taille d’un individu et qui renvoie en sortie son \(IMC\).

  2. Calculer l’\(IMC\) d’une personne :

    • mesurant 1.64 m et pesant 64 kg
    • mesurant 1.61 m et pesant 56 kg
    • mesurant 1.72 m et pesant 102 kg
    • mesurant 1.65 m et pesant 51 kg
  3. Créer une seconde fonction qui prend en argument le poids et la taille d’un individu et qui renvoie en sortie sa classification.

  4. Quelle est la classification des 4 personnes de la question 2.

Statistiques descriptives

Exercice 11

  1. Créer un tableau à 24 lignes et 3 colonnes en lisant le fichier chromosomes.txt avec la fonction read.table. Chaque ligne représente un chromosome humain (22 autosome, 2 chromosomes sexuels) et les colonnes sont respectivement leur noms, nombre de gènes, et longueur en bases.

  2. Représenter Le nombre de gènes en fonction du nombre de bases.

  3. Ajouter une colonne supplémentaire au tableau qui spécifie pour chaque chromosome s’il est autosome ou pas.

  4. Calculer le nombre total de bases d’un génome humain (pour un homme, puis pour une femme).

  5. Exporter le tableau ainsi créé dans un fichier chromosomes2.txt

Exercice 12

  1. Charger le jeu de données hdpg du package ade4 et lire son descriptif.

  2. Nous considérerons le tableau hdpg$ind qui décrit l’échantillon des 1066 individus de l’étude.

  3. Combien de populations différentes participent à l’étude ?

  4. Dresser les tableaux des effectifs des variables population, région et sexe.

  5. Transformer ces tableaux en tableaux de fréquences.

  6. Représenter vos tableaux de fréquence par des diagrammes en bâton, et par des camemberts.

  7. Représenter les fréquences cumulées.

  8. Commenter les représentations.

Exercice 13

Un sondage est réalisé auprès de 100 individus pour savoir où va leur préférence parmi un panel représentatif de marques de bière. Les résultats obtenus se trouvent dans le fichier bieres.csv.

  1. Lire le fichier de données sous forme de data.frame.

  2. Combien de marques sont considérées ? Quelles sont-elles ?

  3. Compter les occurrences de chacune des marques de bières. Les représenter sous la forme de graphe en barres. Représenter cette distribution sous forme de camembert en choisissant les couleurs vous même. Utiliser une seule fenêtre graphique pour les deux figures.

Exercice 14

Pour étudier l’effet d’un somnifère, on mesure chez 20 patients le nombre d’heures de sommeil supplémentaires par rapport à la durée moyenne de leur nuit sans traitement. On obtient les résultats suivants:

extra <- c( -1.6 , -0.2  , -1.2  , -0.1 , 3.4  , 3.7  , 0.8  , 0.0  , 2.0  ,1.9  , 0.8  , 1.1  , 0.1  , -0.1  , 4.4  , 5.5  , 1.6  , 4.6  , 3.4 )
  1. Saisir ces données dans un vecteur.

  2. Faire un résumé numérique.

  3. Tracer la fonction de répartition empirique puis l’histogramme normalisé des données dans la même fenêtre graphique.

  4. Ces données sont en fait issues de deux groupes d’individus: apposer une variable indiquant le groupe associé à l’observation de la variable extra sachant que les 10 premiers individus sont issus du groupe 1 et les 10 suivants du groupe 2 (utiliser, par exemple, la commande data.frame). Faire un résumé statistique pour chaque groupe et tracer alors les boîtes à moustaches des observations selon les groupes. Qu’en pensez-vous ?

Exercice 15

Le coefficient de Gini permet de mesurer l’inégalité des revenus dans une population. Si tous les individus gagnent le même salaire le coefficient de Gini vaut \(0\) (situation égalitaire), alors que si un seul individu gagne tous le revenu disponible et les autres rien l’index de gini vaut \(1\). Les états-unis ont par exemple un coefficient de Gini de \(0.47\).

  1. Charger le jeu de données gini.Rdata.

  2. Sélectionner les lignes du tableau correspondant à l’année 2007.

  3. Tracer l’histogramme des coefficients.

  4. Tracer l’histogramme lissé des coefficients.

  5. Tracer le boxplot des coefficients.

  6. Tracer un diagramme des fréquences cumulées des coefficients.

  7. Écrire une fonction R qui rende les pays de coefficient Gini d’index maximum et minimum.

  8. Classer les pays par leur coefficient de Gini.

  9. Calculer la moyenne, la variance, le coefficient d’asymétrie, le coefficient d’aplatissement pour la distribution des coefficients de gini. Commenter.

  10. Combien de pays sont plus égalitaires que la France en europe.

Méthodes de Monte-Carlo

Exercice 16

L’aire d’un disque de rayon \(R\) est \(\pi R^2\). Soit un carré \([A,B,C,D]\) avec \(A(-1,-1)\), \(B(-1,1)\), \(C(1,1)\) et \(D(1,-1)\). La distance d’un point de coordonnées \((x,y)\) à l’origine est \(x^2+y^2\).

Soit la fonction :

data.points <- function(n,R){
  x <- runif(n,-R,R)
  y <- runif(n,-R,R)
  return(data.frame(x,y))
}
  1. A l’aide de la fonction ci-dessus, construire un tableau de données dont chaque ligne représente un point tiré aléatoirement dans le carré.
  2. Ajouter une colonne indiquant pour chaque point s’il appartient au disque de centre \((0,0)\) et de diamètre \(R\).
  3. La proportion de points tombant dans le disque est le rapport de l’aire du disque sur l’aire du carré, soit \(\frac{\pi}{4}\). Ecrire une fonction qui estime \(\pi\) à partir du tableau précédent.

Probabilités

Exercice 17

Notons X la variable aléatoire correspondant au niveau d’expression (normalisé) d’un gène G. De nombreuses expériences ont permis d’établir que \(X\sim N(0.2,1.3)\).

  1. Représenter grapgiquement la distribution de \(X\).

  2. Déterminer les probabibilités suivantes:

  • \(P(X>0.6)\)
  • \(P(X<-0.2)\)
  • \(P(0.1<X<0.7)\)
  • \(P(0\leq X <0.5)\)
  1. Déterminer les valeurs de \(a\) telles que:
  • \(P(X\leq a)=0.45\)
  • \(Pr(X>a)=0.62\)

Une modification des réglages du scaner de la plateforme conduit à multiplier par \(1.2\) toutes les intensités \(X\). Quelles est la loi de la nouvelle variable aléatoire \(Y\) correspondant au niveau d’expression du gène G?

Exercice 18 (facultatif)

On suppose que la glycémie est distribuée normalement dans la population, avec une moyenne de 1 g/l et un écart-type de 0,03 g/l. On mesure la glycémie chez un individu.

  1. Calculer la probabilité pour que sa glycémie soit :
  1. inférieure à 1,06

  2. supérieure à 0,9985

  3. comprise entre 0,94 et 1,08

  1. On mesure la glycémie chez 1 000 individus. Donner le nombre moyen d’individus dont la glycémie est supérieure à 0,99.

Estimation

Exercice 19

Pour estimer la densité bactérienne d une suspension, on ensemence avec le même volume \(v\) 10 boîtes de Pétri sur lesquelles on compte les nombres suivants de colonies (qui sont aussi les nombres de bactéries présentes dans chacun des volumes \(v\)) :

nbbact <- c(47, 47, 55, 47, 56, 56, 38, 42, 48, 45)

On note \(N\) le nombre de bactéries présentes dans un volume \(v\).

  1. Estimer l’espérance \(\mu\) de \(N\).

  2. Estimer la variance \(\sigma^2\) de \(N\).

  3. On suppose que \(N\) suit une distribution de Poisson.

Donner une autre estimation de \(\sigma^2\) que celle obtenue en 2.

Exercice 20

Pour déterminer la concentration en glucose d un échantillon sanguin, on effectue des dosages à l aide d une technique expérimentale donnée. On considère que le résultat de chaque dosage est une variable aléatoire normale. On effectue 10 dosages indépendants, qui donnent les résultats suivants (en g/l) :

dosages <- c(0.96, 1.04, 1.08, 0.92, 1.04, 1.18, 0.99, 0.99, 1.25, 1.08)

Calculer un interval de confiance de cette concentration de niveau \(95\%\).

Tests d’hypothèses

Exercice 21

Le temps de réaction moyen des souris d’un certain élevage à un test déterminé est de 19 minutes. On désire expérimenter un produit pharmaceutique sur ces souris. On administre à 8 d’entre elles une dose de ce produit et l’on observe les temps de réaction suivants (en minutes) :

tpsreact <- c(15, 14, 21, 12, 17, 12, 19, 18)

On suppose les temps de réaction normalement distribués. Au niveau \(\alpha=5\%\), l’action du produit est-elle significative ?

  1. (Facultatif) Ecrire une fonction ‘my.t.test’ prenant en entrée un vecteur d’observations et une valeur \(\mu_0\) et retournant la p-value du test. Utiliser la fonction pour tester l’action du produit.

  2. Refaire le test en utilisant la fonciton ‘t.test’

Exercice 22

La quinine est une molécule utilisée dans le traitement du paludisme. Des médecins ont constaté que les patients qui suivent un traitement à base de quinine semblent présenter des réactions allergiques au soleil plus fréquentes.

  1. Pour étudier ce phénomène, une étude préliminaire portant sur 10 patients suivant un traitement à base de quinine a été mise en place. Des études antérieures on permis d’établir que le pourcentage d’individus dans la population générale qui présente une réaction allergique au soleil est de \(20\%\). Sur les 10 patients traités, \(3\) ont eu une réaction allergique. Proposez un test statistique pour vérifier l’hypothèse des médecins et conclure.

  2. Une plus grande étude portant sur 1000 patients suivant un traitement à base de quinine a été mise en place. Sur les 1000 patients traités, \(237\) ont eu une réaction allergique. En utilisant l’approximation gaussienne, proposez un nouveau test statistique pour vérifier l’hypothèse des médecins et conclure.

Exercice 23 (facultatif)

En population générale, la proportion d’enfants dont la maturation osseuse atteint un retard de un an ou plus (par rapport à une certaine norme) est \(p=20\%\). Dans le cadre d’une étude portant sur les conséquences éventuelles d’une exposition modérée au fluor sur la santé des enfants, on prévoit d’observer \(15\) enfants habitant à proximité d’une source de fluor.

  1. Construire un test statistique de niveau \(\alpha=5\%\) permettant de déterminer si une exposition au fluor augmente significativement le risque d’avoir un retard de la maturation osseuse.

  2. Quelle est la puissance du test si le risque d’avoir un retard de la maturation osseuse pour un enfant exposé au fluor est en réalité de \(30\%\) ?

  3. Sur les \(15\) enfants observés, \(5\) présentent un retard. Que peut-on conclure ?

Exercice 24

On envisage d’ajouter un adjuvant au traitement usuel d’un certain type de rhumatisme. Sans adjuvant, la durée séparant deux crises de récurrence rhumatismale peut être modélisée par une variable aléatoire suivant une distribution normale d’espérance \(\mu=560\) (exprimée en jours). On administre le traitement avec adjuvant à 10 sujets. Les durées de récurrence observées sont les suivantes :

adjv <- c(646, 573, 485, 752, 742, 636, 607, 665, 506, 575)

Au niveau \(\alpha=5\%\), l’adjuvant modifie-t-il significativement la durée moyenne de récurrence ?

Exercice 25 (facultatif)

Un laboratoire pharmaceutique produit des tubes de pommade dont les poids suivent une distribution normale. On dispose de deux échantillons issus de 2 sites de production différents. Les poids sont donnés dans le tableau suivant :

##       Echantillon 1 Echantillon 2
##  [1,]          56.4          54.6
##  [2,]          57.5          58.2
##  [3,]          55.8          60.3
##  [4,]          54.3          59.5
##  [5,]          58.9          61.1
##  [6,]          56.9          58.7
##  [7,]          54.8          59.8
##  [8,]          54.2          57.5
##  [9,]          58.1            NA
  1. Les variances des 2 échantillons sont-elles significativement différentes ?

  2. Le poids des tubes est-il significativement différent d’un site de production à l’autre ?

Exercice 26

Un producteur de lait souhaite comparer le rendement moyen des vaches normandes et hollandaises de son unité de production. Pour ce faire, il a relevé la production de lait (exprimée en kg) de 10 vaches prises au hasard dans chaque groupe. On suppose que la production dans chaque groupe suit une distribution normale.

##       Normandes Hollandaises
##  [1,]       552          487
##  [2,]       464          489
##  [3,]       423          470
##  [4,]       506          482
##  [5,]       497          494
##  [6,]       544          500
##  [7,]       486          504
##  [8,]       531          567
##  [9,]       496          482
## [10,]       501          526

Conclure au vu de ces données.

Exercice 27

On fait une numération globulaire à un groupe de 10 personnes à deux périodes différentes de l’année. Pour chaque sujet, on note les résultats des deux numérations (à multiplier par \(10^5\)) :

##       Sujet Janvier Septembre
##  [1,]     1      46        48
##  [2,]     2      38        47
##  [3,]     3      42        44
##  [4,]     4      47        45
##  [5,]     5      48        51
##  [6,]     6      40        44
##  [7,]     7      40        47
##  [8,]     8      43        48
##  [9,]     9      42        47
## [10,]    10      49        57

On suppose que les sujets sont mutuellement indépendants et suivent une loi gaussienne. Tester au niveau 0.05 l’hypothèse selon laquele les résultats de la numération sont les mêmes aux deux périodes.

Exercice 28 (facultatif)

La quantité de bactéries par \(cm^3\) de lait provenant de 8 vaches différentes est estimée juste après la traite et 24h plus tard. La distribution des résultats obtenus est supposée normale. Au niveau \(\alpha=5\%\), existe-t-il un accroissement significatif du nombre de bactéries par \(cm^3\) de lait au cours du temps ?

##      Vache Juste après la\ntraite 24h après la traite 
## [1,]     1                  12000                14000
## [2,]     2                  13000                20000
## [3,]     3                  21500                31000
## [4,]     4                  17000                28000
## [5,]     5                  15000                26000
## [6,]     6                  22000                30000
## [7,]     7                  11000                16000
## [8,]     8                  21000                29000

Exercice 29

Le tableau suivant donne la répartition (en pourcentages) des quatre groupes sanguins pour l’ensemble de l’Europe:

##    O    A    B   AB 
## 0.40 0.43 0.12 0.05

Pour un échantillon de 100 individus prélevés au hasard dans la population d’un région montagneuse (et isolé) de l’Europe, on a relevé les effectifs suivants:

##  O  A  B AB 
## 35 35 20 10

Y a-t-il conformité entre ces observations et la répartition pour l’ensemble de l’Europe au seuil \(\alpha=5\%\) ?

Exercice 30

Une boîte de Petri a été photographiée au microscope. La photographie est divisée en carrés de surfaces égales. Le dénombrement dans chaque carré des colonies de bactéries donne le tableau suivant:

##                              [,1] [,2] [,3] [,4] [,5] [,6]
## Nombre de colonies par carré    0    1    2    3    4    5
## Nombre de carrés               10   24   34   23    6    3
  1. Estimer le nombre moyen de colonies par carré.

  2. Peut-on accepter l’hypothèse selon laquelle le nombre de colonies par carré est distribué suivant une loi de Poisson ?

Exercice 31

Après de nombreuses années d’études cliniques, on a constaté que pour les malades atteints d’un cancer anaplasique bronchopulmonaire primitif, la survie sans traitement, une fois le diagnostic posé, se distribue de la façon suivante :

##                       [,1]   [,2]     [,3]      [,4]  
## Survie (en mois)      "<6"   "6 à 12" "12 à 24" ">24" 
## Fréquence des survies "0.45" "0.35"   "0.15"    "0.05"

Pour 60 patients soumis à un traitement T associant une polychimoithérapie première suivie d’une radiothérapie on a observé les résultats suivants :

##                    [,1] [,2]     [,3]      [,4] 
## Survie (en mois)   "<6" "6 à 12" "12 à 24" ">24"
## Nombre de patients "6"  "24"     "12"      "18"

Au vu de ces résultats, peut-on conclure (au niveau 5%) que le traitement a un effet significatif sur la survie ?

Exercice 32

On étudie, chez les enfants asthmatiques, le lien éventuel entre intensité de l’asthme et présence d’eczéma (pendant l’obervation ou antérieurement à celle-ci). L’étude de 200 enfants asthmatiques a fourni les résultats suivants:

##         fort moyen léger
## présent   24     6     5
## passé     30    30    10
## jamais    18    54    23
  1. Sous l’hypothèse d’indépendance des deux caractères asthme et eczéma, calculer les effectifs théoriques des 9 classes.

  2. Au seuil \(\alpha=5\%\) peut-on conclure à l’indépendance des deux caractères ?

Exercice 33 (facultatif)

Dans une population \(P\) d’hommes qui a été suivie pendant une période de 4 ans, on a sélectionné par tirage au sort 100 sujets qui avaient maigri au cours des 4 ans (poids final inférieur au poids initial de plus de 1kg), 100 sujets dont le poids n’avaient pas varié de plus de 1kg et 100 sujets qui avaient grossi. La répartition des 300 sujets selon l’évolution de leur cholestérolémie est donnée dans le tableau suivant :

##                               .         ..
## PoidsxCholestérolémie a diminué a augmenté
## a diminué                    52         48
## n'a pas varié                45         55
## a augmenté                   32         68

Au niveau \(\alpha=5\%\), peut-on conclure qu’il existe une relation significative entre les modifications de poids et les modifications de cholestérolémie ?

Exercice 34

Deux lots de souris doivent sortir d’un labyrinthe et disposent de 8 sorties correspondant aux 8 directions de la rose des vents. Le premier lot est formé de souris de laboratoire, le second de souris sauvages capturées au Nord-Est du laboratoire.

##   DirectionDeFuite SourisDeLAboratoire SourisSauvages
## 1                N                  17             26
## 2               NO                  25             17
## 3                O                  13              9
## 4               SO                  28              2
## 5                S                  19              3
## 6               SE                  20             16
## 7                E                  22             33
## 8               NE                  16             54

Les directions de fuite sont-elles réparties de la même façon dans les deux groupes?

Exercice 35 (facultatif)

Lors d’une étude médicale, on a déterminé le génotype de \(n=1000\) personnes. Les observations sont les suivantes:

| \(AA\) | \(Aa\) | \(aa\)
Effectifs | 652 | 310 | 38

Proposer un test permettant de savoir si la population est sous l’équilibre d’Hardy-Weinberg.

Exercice 36 (facultatif)

La notice d’un sirop contre la toux indique comme valeur de référence pour la moyenne \(m_0\) de l’agent actif \(40 g/\)litre. Le contr^oleur de la fabrication décidera d’arrêter provisoirement la production si la moyenne \(m\) inconnue est strictement inf`erieure `a cette valeur de référence. Il souhaite ne prendre qu’un risque minime c’est-`a-dire \(\alpha = 0.01\) en décidant d’arrêter `a tort la production.

Le contr^oleur de la fabrication prél`eve de mani`ere indépendantes 9 bouteilles au hasard dans la production et mesure la quantité d’agent actif. Les résultats pour ces 9 dosages indépendants sont les suivants (en g/litre):

38.7, 39.6, 37.9, 40.6, 40.5, 37.7, 41.2, 37.5, 39.1.
On suppose que la quantité d’agent actif conditionnée dans une bouteille de sirop est une variable normale, centrée sur la vraie valeur \(m\) (absence de biais). Sous ,

Exercice 37

Un échantillon de 40 poissons de la même esp`ece a fourni les poids suivant (en g):

61, 82, 92, 97, 101, 104, 109, 118, 131, 155, 69, 82, 93, 97, 101, 104, 110, 120, 133, 145, 105, 110, 121, 138, 166, 74, 85, 93, 99, 102, 106, 110, 125, 140, 171, 79, 87, 94, 99, 102

Exercice 38

Plusieurs sujets sont choisis au hasard dans une population et, parmi ceux-ci, certains sont tirés au sort pour recevoir un traitement (Groupe A), les autres devant servir de témoins (Groupe B).
Le traitement est censé modifier le résultat d’un dosage biologique. Les résultats, exprimés en mg/l, sont les suivants :

roupe A | 6,50 |5,50|8,00|7,00|6,00
roupe B|7,00|8,50|8,00|7,50|9,00|7,20|8,20

Exercice 39

On souhaite étudier l’effet d’une nouvelle stratégie de traitement du diabète sur la glycémie. On dose la glycémie chez 15 sujets avant le début du nouveau protocole (série A) et 3 mois après (série B) :

| 2,47| 3,09| 2,14| 2,47| 3,06| 2,72| 2,29| 1,90| 2,34| 2,75| 2,67| 2,80| 2,51| 2,23| 2,20
| 2,30| 2,96| 2,23| 2,34 |2,84| 2,59| 2,15| 1,88| 2,32| 2,65| 2,68| 2,58| 2,43| 2,02| 2,17

Le nouveau protocole est-il efficace ?

Exercice 40

Cinq rats sont entraînés à imiter un rat leader dans un labyrinthe en T, pour atteindre une source de nourriture. Puis ces rats sont ensuite transférés dans une situation o`u par imitation d’un rat leader, ils apprennent à éviter un choc électrique. Leur comportement dans cette situation est comparé à celui de rats n’ayant pas été entraînés à suivre un leader. La comparaison se fait en terme de nombre d’essais nécessaire à chaque rat pour obtenir 10 réponses d’évitement lors de 10 essais.

xp|78|64|75|45|82
émoins|110|70|53|51

Les 5 rats préalablement conditionnés à imiter un congénère réussissent-ils rapidement que les autres à éviter les chocs?

Exercice 41

On a mesuré sur Dunaliella Marina, la quantité d’azote protéique par cellule, à la même date et dans des conditions expérimentales identiques, sur une culture témoin et sur une culture préalablement irradiée. On pense que l’irradiation favorise un développement anormal des cellules.

ulture témoin|1.65 | 2.00 | 1.69 | 2.20 | 2.13 | 1.66 | 2.30 | 1.87 | 1.74 | 1.97
ulture irradiée| 2.29 | 2.57 | 2.66 | 2.45 | 2.97 | 2.27 | 1.76 | 2.74 | 2.36|

Interpréter les résultats.

Exercice 42

On souhaite comparer trois traitements notés A, B, C contre l’asthme: le traitement B est un nouveau traitement, que l’on souhaite mettre en compétition avec les traitements classiques A et C. On répartit par tirage au sort les patients et on mesure sur chacun la durée en jours avant la prochaine crise d’asthme.

Exercice 43

On souhaite étudier l’effet du niveau de fertilisation et de la rotation de culture sur le poids des grains de colza. On compare pour cela 2 niveaux de fertilisation (notés 1 pour faible et 2 pour fort) et 3 types de rotation de culture maïs / blé / colza / blé : A (sans enfouissement de paille), B (avec enfouissement de paille) et C (avec quatre années de prairie temporaire entre chaque succession sans enfouissement de paille).

Exercice 44

On s’intéresse aux performances sportives d’enfants de 12 ans. Chaque enfant passe une dizaine d’épreuves (courses, sauts, lancers, etc.), et les résultats sont synthétisés dans un indice global, noté \(Y\). On cherche à mesurer l’incidence sur ces performances de deux variables: la capacité thoracique \(X_1\) et la force musculaire \(X_2\). Ces trois quantités, \(Y,X_1\) et \(X_2\), sont repérées par rapport à une valeur de référence, notée à chaque fois \(0\), les valeurs positives étant associées aux bonnes performances.

Les mesures associées à un échantillon de 60 enfants sont stockés dans le vecteur , dont vous disposerez sous une fois chargé le fichier .

On adopte, au moins dans un premier temps, le modèle \(H_2\) \[\begin{equation*} Y = a_1 \ X_1 + a_2 \ X_2 + \varepsilon, \end{equation*}\]\(\varepsilon\) est un résidu non expliqué par le modèle: les \(\varepsilon_i\) associés aux différents individus seront modélisés par des \(\mathcal{N}(0,\sigma^2)\) indépendantes (Notons que le calage des données autour de zéro se traduit par le fait que, quand \(X_1=X_2=0\), alors \(E(Y)=0\)).