S'abonner à un flux RSS
 

A.09 - Quantiles et médiane

De Wikigeotech

Sommaire

Contexte

Quand l'incertitude de prévision est telle qu'une prévision exprimée sous une forme déterministe ne suffit pas, alors nous pouvons nous tourner vers une prévision probabiliste (fiche A.08) dans laquelle la distribution de probabilité de la variable à prévoir est estimée. Cette distribution n'est pas forcément un objet facile à manier, ni entièrement utile aux destinataires des prévisions. Il est souvent pertinent d'en résumer les principales caractéristiques. Cela peut être fait par la communication d'un petit nombre de ses quantiles, et par le « premier d'entre eux », sa médiane.

Médiane

Définition

Considérons une distribution de probabilité d'une variable à prévoir X (comme une hauteur ou un débit). La médiane est la valeur xméd de cette variable X telle que la probabilité que la variable prenne une valeur x inférieure à xméd soit de 0,5 (une chance sur deux)[1] Inc51.bmp:

La médiane n'est pas forcément la moyenne

La médiane est parfois confondue avec la moyenne. Elles sont égales dans certains cas (par exemple pour des distributions de probabilité symétriques). Mais elles peuvent également être sensiblement différentes (la fiche A.12 en donne un exemple). Il s'agit surtout de deux notions très différentes :

  • la médiane s'intéresse à une probabilité de dépassement ou de réalisation : cette notion sera plus utile dans le cas d'une gestion de crise liée à un dépassement de seuil ;
  • la moyenne de la distribution représente la valeur qu'on peut attendre[2] et son emploi peut se révéler plus adapté à l'optimisation d'une ressource (par exemple le remplissage d'un barrage).

La confusion entre moyenne et médiane, l'absence de connaissance de la signification des quantiles peut parfois avoir des conséquences significatives.

Exemple 1. Pour être rentable, une station de sports d'hiver doit bénéficier suffisamment souvent d'un enneigement minimal pour ouvrir. C'est pourquoi l'implantation ou l'extension de stations nécessite des études économiques préalables qui analyse l'enneigement observé lors des années précédentes. Or la hauteur médiane de neige peut être significativement différente de la hauteur moyenne. La taille de l'échantillon est également à prendre en compte. La figure 1 donne le cumul annuel de neige observé dans le massif du Jura pour une altitude proche de 1 000 m. Si la moyenne (interannuelle) est de l'ordre de 4m de neige au sol, il y a moins de 3 m 50 de neige une année sur 2 (médiane) et moins de 3 m une année sur 4. Décider de l'installation de nouveaux équipements sur la base de l’enneigement moyen peut se révéler ici périlleux. Par ailleurs, un échantillon limité sur la période plutôt neigeuse de 1972 à 1985 présenterait des statistiques plus optimistes sur le manteau neigeux. Des analyses sur cette période ont d'ailleurs induit des aménagements de zones de ski de fond vers 900 m qui sont actuellement en grande fragilité économique.

Quantiles

La notion de quantile vient dans le prolongement de celle de médiane. La valeur q de la variable X est le quantile de probabilité y (comprise entre 0 et 1, et souvent exprimée en pourcentage) si la probabilité que la variable X prenne une valeur x inférieure à q vaut y. On note le quantile Inc52.bmp. Ainsi :


Inc53.bmp


La médiane est donc le quantile de probabilité 0,5 : Inc54.bmp

Les quantiles permettent de définir les intervalles de prévision (fiche A.10) de façon efficace. En particulier, une représentation fréquente d'une distribution est celle d'une boîte à moustache (en anglais boxplot, fig. 2.c).


Inc55.bmp


Exemple 2. Un agriculteur doit pouvoir résister à une mauvaise récolte, due par exemple à de mauvaises conditions climatiques. Mais cette situation ne doit pas se reproduire trop souvent, sinon il lui faudra modifier ses cultures ou partir vers des terres et des cieux meilleurs. En général, il intègre dans son budget pluri-annuel la nécessité d'être capable de faire face à 1 mauvaise année sur 5. Le rendement en maïs est corrélé à l'énergie (solaire) reçue par les plantations au-dessus d'une température seuil. Cette énergie est estimée en « DJU », correspondant au cumul de température annuel au-dessus d'un certain seuil à partir de la date du semis. Le rendement dépend également de la variété du maïs planté : l'agriculteur choisit donc la variété à planter en fonction de ses « prévisions » de DJU. Le tableau 1 présente les valeurs minimales en DJU nécessaires pour obtenir une bonne récolte de différentes variétés de maïs et le tableau 2 donne les observations de DJU (au-dessus de 6 °C) sur la période 1972 – 1975 : la moyenne est de 1894 °J tandis que la médiane est de 1886 °J et le quantile 20 % de 1739 °J. Un agriculteur se basant sur la moyenne ou la médiane choisira une variété « Demi tardifs » mais s'il veut avoir la chance d'avoir des maïs à maturité avant fin octobre au moins 4 années sur 5, il aura intérêt à prendre un « Demi-Précoce Corné Denté ».


Inc66.bmp

Inc67.bmp


Voir également

Fiche A.04 – Exprimer une information sur l'incertitude par un pari

Fiche A.08 – Probabilités

Fiche 1.10 – Intervalles de prévision

Fiche A.12 – Distribution multimodale et mode d’une distribution



  1. Et donc que la probabilité que la variable prenne une valeur x supérieure à xméd est également de 0,5.
  2. Les statisticiens parlent d'espérance. Pour une prévision donnée sous la forme d'une densité de probabilité Inc56.bmp, l'espérance vaut : Inc57.bmp. Par exemple, l'espérance du jet d'un dé à 6 faces vaut 3,5. En effet, en notant en gras les valeurs possibles du jet et en italique leurs probabilités, on obtient : Inc58.bmp
Outils personnels