LAS1 – Biostatistique – Données physiologiques

Cet exercice sur les données physiologiques est un exercice standard avec la détermination de la nature des données, de la taille de l’échantillon, des fréquences et fréquences cumulées, du mode, des quartiles, de la moyenne et la représentation à l’aide de diagramme en barres et par secteur, d’histogramme  et de boîte à moustache.

Énoncé de l’exercice

– Données physiologiques –


Une étude est menée concernant des données physiologiques, âge et taille, des étudiants en STAPS.

A. Étude de l’âge.

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma1

1. Indiquez la nature des données et la taille de l’échantillon.

2. Représentez les fréquences sous forme d’un diagramme en bâtons.

3. Quelle est la valeur du mode ?

4. Calculez les fréquences cumulées et représentez la courbe des fréquences cumulées.

5. Donnez les valeurs des quartiles puis les représenter au travers d’une boîte à moustaches.

6. Donnez les valeurs de la moyenne et de la variance.

7. On ajoute enfin un étudiant senior âgé de 65 ans. Qu’est-ce que cela change sur le mode, la médiane et la moyenne ? Qu’en concluez-vous ?

B. Étude de la taille (en cm)

$162,8~; 180,6~; 174,6~; 181,6~; 178,9~; 174,9~; 180,5~; 178,5~; 185,6~; 175,0~; 168,9~;$

$167,4~; 159,3~; 174,0~; 168,7~; 162,6~; 171,1~; 159,9~; 165,8~; 168,9$

1. Indiquez la nature des données et la taille de l’échantillon.

2. Représentez les fréquences sous forme d’un diagramme en bâtons. Quelle est la valeur du mode ? Que constatez-vous ?

3. Représentez l’histogramme correspondant à ces observations. Indiquez la classe modale.

4. Calculez les fréquences cumulées et représentez la courbe des fréquences cumulées.

5. Donnez les valeurs des quartiles puis les représenter au travers d’une boîte à moustaches.

6. Donnez les valeurs de la moyenne et de la variance.


Corrigé de l’exercice

– Données physiologiques –

fleches
Pour accéder gratuitement au corrigé détaillé de l'exercice ci-dessus, cliquez ici.
Tous droits réservés
Ne pas vendre, ne pas céder, ne pas diffuser et ne pas copier cette correction sans autorisation.

Vous êtes enseignant et vous êtes intéressé par cette correction, contactez-moi.

A. Données physiologiques – Étude de l’âge.
1. Nature des données et taille de l’échantillon

La population étudiée est constituée des étudiants en STAPS. Elle est notée $\Omega$.

$\Omega=$ {étudiants en STAPS}.

La variable (ou caractère) observée est l’âge. Le domaine $V=\{17,18,19,20 \}$ où les valeurs représentent un âge. La variable est donc de type quantitative discrète.

Les données recueillies pour l’étude représentent les observations de cette variable sur un échantillon de cette population de taille $n=20$.

En conclusion, les données sont de type quantitatif discret et la taille de l’échantillon est $20$.

2. Diagramme en bâtons des fréquences

Pour réaliser le diagramme en barres (ou bâtons) des fréquences, il faut tout d’abord déterminer les fréquences des modalités.

On rappelle que pour une modalité $v_i$ d’effectif $n_i$, sa fréquence est $\displaystyle f_i=\frac{n_i}{n}$, avec $n$ effectif total (taille de l’échantillon).

Ainsi, pour la première modalité, $v_1=17$, nous obtenons une fréquence $\displaystyle f_1=\frac{n_1}{n}=\frac{3}{20}=0{,}15$. En faisant de même pour les trois autres, on obtient le tableau des fréquences suivant

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma2

D’où le diagramme en barres des fréquences

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma3

3. Valeur du mode

Le mode étant la modalité pour laquelle l’effectif est le plus grand, il s’agit donc de $18$.

4. Fréquences cumulées

Les fréquences cumulées sont résumées dans le tableau suivant

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma4

D’où la courbe des fréquences cumulées suivante

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma5

5. Valeurs des quartiles

Rappelons que le premier quartile, noté $Q_1$, est la plus petite valeur de la série telle qu’au moins $25~\%$ des données soient inférieures ou égales à $Q_1$.

Si l’on revient au tableau des fréquences cumulées, on voit que $55~\%$ des valeurs sont inférieures ou égales à 18. Donc $Q_1=18$.

Le deuxième quartile, qui n’est autre que la médiane, notée $\mathrm{M\acute ed}$, est la plus petite valeur de la série telle qu’au moins $50~\%$ des données soient inférieures ou égales à $\mathrm{M\acute ed}$. Toujours d’après le tableau des fréquences cumulées, on voit que $\mathrm{M\acute ed}=18$. La médiane est ici égale au premier quartile.

Pour finir, le troisième quartile, noté $Q_3$, est la plus petite valeur de la série telle qu’au moins $75~\%$ des données soient inférieures ou égales à $Q_3$. Le tableau nous donne $Q_3=19$.

Boîte à moustaches

Les données précédentes peuvent être représentées à l’aide de la boîte à moustaches suivante

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma6

6. Moyenne et variance

Rappelons que la moyenne de l’échantillon $m$ est un indicateur de tendance générale de la distribution des observations. Elle correspond tout simplement à la moyenne arithmétique des observations :

$$m=\frac{\displaystyle \sum_{i=1}^n x_i}{n}$$

La variance de l’échantillon $s^2$ est un indicateur de dispersion de la distribution des observations autour de la moyenne. Elle indique la plus ou moins grande dispersion (ou concentration) des observations autour de la moyenne. Plus la variance est élevée (resp. faible), plus la distribution est dispersée (resp. concentrée). Elle correspond à la moyenne des carrés des écarts des observations par rapport à la moyenne :

$$s^2=\frac{\displaystyle \sum_{i=1}^n (x_i-m)^2}{n}$$

Lorsque les données sont disponibles sous la forme d’une tableau des effectifs, ce qui est le cas ici, il est plus commode d’utiliser les relations équivalentes

$$m=\frac{\displaystyle \sum_{i=1}^n n_iv_i}{n}$$

$$s^2=\frac{\displaystyle \sum_{i=1}^n n_iv_i^2}{n}-m^2$$

Pour déterminer les valeurs de la moyenne et de la variance, reprenons le tableau des effectifs et pour chaque couple $(v_i,n_i)$ déterminons-en les produits $n_iv_i$ et $n_iv_i^2$, ainsi que leur somme :

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma7

Ainsi, la moyenne

$\displaystyle m=\frac{\displaystyle \sum_{i=1}^n n_iv_i}{n}=\frac{368}{20} \qquad$ soit $\qquad \boxed{m=18{,}4}$

et la variance

$\displaystyle s^2=\frac{\displaystyle \sum_{i=1}^n n_iv_i^2}{n}-m^2=\frac{6786}{20}-18,4^2 \qquad $ soit $\qquad \boxed{s^2=0{,}74}$

7. Changement suite à l’ajout d’un étudiant

Tout d’abord, l’ajout d’un étudiant modifie la taille de l’échantillon. Nous avons maintenant $n=21$. Dressons à nouveau le tableau des fréquences cumulées en tenant compte de l’étudiant supplémentaire :

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma8

Le mode ne change pas, c’est toujours $18$. De même, $18$ est toujours la plus petite valeur des modalités pour laquelle il y a au moins $50~\%$ (précisément $52{,}4~\%$) des valeurs qui lui sont inférieurs ou égales.  La médiane est donc toujours $\mathrm{M\acute ed}=18$.

Donc pas de changement du mode ni de la médiane.

Concernant la moyenne, nous obtenons

$\displaystyle m=\frac{\displaystyle \sum_{i=1}^n n_iv_i}{n}=\frac{433}{21} \qquad$ soit $\qquad \boxed{m=20{,}6}$

La moyenne, elle, subit un changement non négligeable. La valeur est passée de $18{,}4$ à $20{,}6$.

On peut en conclure que la moyenne est plus sensible que la médiane à des modification ponctuelle dans les données. En particulier, la médiane (mais aussi les quartiles et donc l’intervalle interquartile) est moins sensible à la présence de valeur extrême (par exemple des erreurs commises dans les données) que la moyenne.

B. Données physiologiques – Étude de la taille.
1. Nature des données et taille de l’échantillon

La population étudiée est toujours constituée des étudiants en STAPS. $\Omega=$ {étudiants en STAPS}.

La variable (ou caractère) observée ici est la taille. Le domaine $V=[0; +\infty[$. La variable est donc de type quantitative continue.

Les données recueillies pour l’étude représentent les observations de cette variable sur un échantillon de cette population de taille $n=20$.

En conclusion, les données sont de type quantitatif continue et la taille de l’échantillon est $20$.

2. Diagramme en bâtons des fréquences

Pour réaliser le diagramme en bâtons des fréquences, il faut tout d’abord déterminer les fréquences des modalités. Nous obtenons le tableau des fréquences suivant

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma9

Le diagramme en bâtons correspondant est le suivant

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma10

La valeur du mode est donc $168,9$.

On peut remarquer que le diagramme en bâtons n’est pas très adapté au cas d’une variable quantitative continue d’où la représentation de la question suivante.

3. Histogramme des fréquences et classe modale

Nous allons pour cela faire un tableau des effectifs plus adapté en considérant des classes modales plutôt que les modalités. Nous obtenons le tableau suivant dans lequel nous avons fait aussi apparaître les fréquences cumulées

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma11

On obtient  l’histogramme des fréquences

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma12

La classe modale est la classe qui a l’effectif le plus élevé, soit $[165; 170[$.

4. Courbe des fréquences cumulées

Les fréquences cumulées sont présentées dans le tableau précédent. On obtient la courbe des fréquences cumulées suivante

sos-mp.fr - LAS1 - Biostatistique - Données physiologiques - Ex3 - schéma13

 


Si besoin :


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.