Statistiques avec R : Définitions

Le Hasard

Pour être très pratique, on dira que le hasard, c'est la traduction ou l'expression de notre ignorance.

Quand on joue à pile ou face, c'est bien parce qu'on ne sait pas à l'avance de quel côté va tomber la pièce qu'on dit que c'est un jeu de hasard et du coup, ça a comme corollaire que le hasard est une notion relative.

Imaginons qu'un jour, en filmant les pièces et en ayant recours à des capteurs et des calculs physiques très sophistiqués, on arrive à prévoir à l'avance de quel côté va tomber la pièce… Dans ce cas on ne pourra plus considérer que le jeu de pile ou face est un jeu de hasard.

La probabilité

En statistiques, on utilise tout le temps le mot probabilité. On pourrait avoir l'impression que définir une probabilité, c'est simple et c'est mathématique.

Là aussi, ce n'est pas tout à fait le cas. En pratique, il y a deux façons de définir une probabilité.

La première, c'est de considérer que la probabilité, c'est la fréquence d'apparition d'un évènement. Ainsi, la probabilité qu'il pleuve un jour donné à Biarritz, c'est égal au rapport du nombre de jours où il a plu, par exemple dans les dix dernières années, sur le nombre de jours qu'il y a eu dans les dix dernières années, c'est-à-dire 3650. Dans ce cas là, certains parlent de physico-probabilité ou de fréquence limite.

Mais il y a des situations où ça n'a pas de sens de parler de probabilité en ces termes.

Imaginons que dans ce second cas, on soit en vacances à Biarritz et que l'on se demande le soir pour le lendemain : “Quelle est la probabilité qu'il pleuve demain ?” afin de préparer sa tenue de randonnée. Demain dans ce cas est un jour unique dans l'histoire de l'humanité. Ce n'est donc pas un élément reproductible et on ne peut pas parler de fréquence limite. C'est le cas de demain seulement qui m’intéresse. Dans ces cas-là, on parle plutôt de plausibilité. Certains utilisent le terme de psycho-probabilité. En pratique, en statistiques, dans les modèles, on a indifféremment recours à l'une ou l'autre de ces définitions de la probabilité.

Variable aléatoire

Les statisticiens utilisent souvent le mot variable aléatoire. Une variable, c'est tout simplement quelque chose (un attribut) que l'on mesure sur un ensemble de sujets (la population statistique). Cette variable est aléatoire si le résultat de la mesure est en partie dû au hasard. On oppose souvent les variables aléatoires quantitatives à celles qui sont qualitatives.

Une variable est quantitative quand ça a un sens de faire des calculs (la somme, différence, etc) entre plusieurs résultats. Par exemple, si l'on relève le poids ou la taille, ça a un sens de faire une différence de poids ou de taille entre deux individus, ou deux mesures. Donc, on dit que ces mesures sont des mesures quantitatives.

Parmi les mesures quantitatives, il y a celles qui sont discrètes et celles qui sont continues.

Une mesure quantitative est discrète quand il y a un nombre limité de résultats relevés par l'étude statistique.

Les mesures sont continues, au contraire, quand le nombre de résultats possibles est très grand, voire infini. On peut avoir des surprises en pratique sur ce qui est quantitatif continu et ce qui est quantitatif discret. Par exemple, si on prend un cas médical comme la numération globulaire, c'est-à-dire le nombre de globules rouges par millimètre cube de sang. Vu de loin, on a l'impression que c'est une variable quantitative discrète puisque c'est un comptage. En réalité, le nombre de résultats possibles est tellement grand – un résultat possible peut être 5 000 000, 5 500 000, 5 250 000, etc. il y a quasiment autant de numérations possibles que de sujets – et donc en pratique, pour l'analyse statistique, la numération globulaire est une variable quantitative continue, au contraire de la tension artérielle mesurée au brassard : si vous considérez le nombre le plus bas, il peut valoir 6; 7; 7,5; 8; 8,5 ou 9. C'est une variable aléatoire quantitative discrète parce qu'il y a un nombre limité de mesures relevées.

Dans le cas des variables aléatoires qualitatives, on ne peut pas en faire la somme et la différence. Pour rester dans le domaine médical, par exemple, le groupe sanguin (A, B,O, AB), est une variable aléatoire qualitative.

Il y a des variables aléatoires qualitatives ordonnées. Par exemple, le niveau de satisfaction que l'on a du Président de la République. On peut dire qu'on est:

“pas satisfait du tout”,
“un peu satisfait”,
“moyennement satisfait”,
“très satisfait”.

On va coder cela en 0, 1, 2, 3. Ça ne sera pas vraiment une variable aléatoire quantitative parce qu’on ne peut pas faire la somme ou la différence aussi simplement que ça de résultats de satisfaction qui sont codés en “pas du tout”, “un peu”, “beaucoup”, “passionnément”. Toutefois, “un peu” est compris entre “pas satisfait du tout” et “moyennement satisfait” et donc on n'est pas vraiment dans une variable aléatoire qualitative pure. C'est pour ça qu'on parle de variable aléatoire qualitative ordonnée.

Alors il y a un cas particulier très important de variables aléatoires qualitatives. Ce sont celles qui sont binaires : être au chômage (Oui/Non), être à la retraite (Oui/Non), être majeur (Oui/Non).

Dans la plupart des disciplines, les variables aléatoires binaires sont très souvent utilisées et les statisticiens ont construit des modèles spécifiques pour les étudier.

Loi d'une variable aléatoire

Prenons un exemple classique, celui du dé que l'on jette sur une table de Casino. Le résultat possible du jet de dé, c'est 1, 2, 3, 4, 5 ou 6. Et si le dé est un dé qui n’est pas pipé (en termes de statisticien, on dit qu'il est équiprobable) alors la probabilité d'obtenir “1”, c'est 1 chance sur 6. Et c'est la même chose pour 2, 3, 4, 5, 6.

On dit donc que la loi de la variable aléatoire du “jeu du dé à 6 faces” est un 1/6, 1/6, 1/6, 1/6, 1/6, 1/6.

Prenons maintenant un nouvel exemple de distribution de variable aléatoire. On va jouer à pile ou face. On va jouer 6 fois. On va compter le nombre total de “face” que l'on fait.

Si on a un peu de chance, ça devrait tourner autour de 2, 3 ou 4. Et puis exceptionnellement, ça peut être 0 ou 6. Nous avons sur la figure suivante la distribution de probabilité calculée exactement pour chacune des possibilités.

Recommençons maintenant notre expérience et au lieu de jeter 6 fois la pièce, nous allons la jeter 20 fois. On comptabilise toujours le nombre total de “face”. Ce nombre peut varier de 0 à 20, en général il sera autour de 10, exceptionnellement 4 et très rarement 0, 1, ou 19 et 20. La distribution de cette nouvelle variable aléatoire prend une forme très régulière et harmonieuse. Et d'ailleurs à la limite, quand le nombre de tirages de pièces, plutôt que d'être égal à 20 tend vers l'infini, la loi tend à se rapprocher d'une courbe continue que l'on dénomme courbe de “Gauss” ou courbe “normale”.

La loi normale a une grande importance en statistiques. En effet, quand une variable est la résultante d'un grand nombre de variables aléatoires indépendantes, alors cette variable suit une loi normale. Par exemple, la taille d'un individu, elle est la résultante de plusieurs facteurs génétiques, de facteurs environnementaux, et même sociaux et culturels. Tous ces facteurs étant plus ou moins indépendants, la taille d'un individu suit finalement une loi normale.

Partant de cette constatation, les statisticiens ont développé des tests optimaux, les plus performants possibles pour des variables suivant des lois normales. Bien entendu, dans la suite du cours, nous ne manquerons pas de les étudier.