Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Cultur'Stats
4 juin 2018

La Moyenne

Si la moyenne est dans l’esprit de chacun synonyme d’intermédiaire entre deux extrêmes (verticalité et horizontalité)*, une sorte de juste-milieu, et ce dans beaucoup de domaines, elle revêt une plus grande complexité dans le domaine des mathématiques et de la statistique.

Vient alors à l’esprit la fameuse moyenne des notes scolaires, et pour certains des souvenirs de stratégies d’efforts pour telle ou telle matière en fonction des pondérations.

La moyenne peut être bien considérée comme une valeur intermédiaire, entre une valeur minimum et maximum. Elle peut être décrite comme un centre de gravité et fait partie des valeurs centrales, comme le mode ou la médiane. C’est aussi vu comme un résumé de données et donc devient une bribe d’information utile, mais souvent insuffisante pour étudier un phénomène.

 

Comme les choses sont complexes, il n’existe pas une moyenne, mais des moyennes. Calculer une moyenne de notes n’est ni calculer une moyenne de vitesse ni une moyenne de taux d’intérêts. Toutes répondent à des logiques différentes : les notes s’additionnent, les taux d’intérêts se multiplient et la vitesse dépend du temps. Ces logiques sont expliquées en détail ci-dessous.

 

Seront présentées ici trois moyennes différentes. La moyenne des notes (arithmétique), la moyenne des cyclistes, marcheurs et coureurs (Harmonique) et la moyenne de la banque (géométrique).

 

I- La moyenne arithmétique 

             A – La moyenne « non pondérée »

             B– La moyenne scolaire ou la moyenne pondérée

II-La moyenne des banques ou la moyenne géométrique

 

III- la moyenne des cyclistes et des marcheurs ou la moyenne harmonique

IV – Les biais liée aux moyennes

V - La chasse aux gaffes

 

 

I- La moyenne arithmétique

 

Cette moyenne, sans doute la plus connue est adaptée pour une série de valeurs, dont le total est la somme des valeurs. Elle peut être pondérée ou non.

 

A – La moyenne « non pondérée »

 

Cette moyenne, sans doute la plus connue est adaptée pour une série de valeurs, dont le total est la somme des valeurs.

Pour illustrer, nous travaillerons sur la distribution de salaires dans une entreprise de 100 personnes. L’exemple ne s’appuie sur aucune monnaie existante, on s’exprimera en unité monétaire.

Total = Somme(salaire1,salaire2,…...salaire N)

 

De telle sorte que dans un tableur, pour 100 salariés, le total des salaires est égal à la somme des salaires via la formule SOMME (fonctionne sur Excel, sur Calc d’Open Office et sur Calc de Libre Office)

Partant de ce constat, nous pouvons calculer une moyenne arithmétique. Elle correspond dans ce cas au total des salaires divisé par le nombre de salariés. Ainsi, il y a répartition (mathématique) égale des salaires chez les salariés . Chaque salarié reçoit en moyenne 23331,74 unités monétaires.

 

 

Définition: La moyenne X est égale à la somme des valeurs xi de la première (i=1) à la dernière N, divisée par le nombre total d'élements N.

Dans notre cas X = (Salaire1+Salaire2+...+SalaireN)/Nombre de salariés

 

De telle sorte que dans un tableur, la moyenne peut être directement calculée sans utiliser la cellule du total et par la fonction MOYENNE (fonctionne sur Excel, sur Calc d’Open Office et sur Calc de Libre Office).

 

 

 

B– La moyenne scolaire ou la moyenne pondérée

 

Dans certains cas les valeurs n’ont pas toutes la même importance et subissent donc une pondération. C’est le cas des notes d’écoles.

Ici le bulletin d’un élève comporte 8 matières pour lesquelles il y a une note et un coefficient. Le sport et le français semblent ne pas être prioritaire dans la cursus de l’élève, les coefficients sont donc plus faibles. Une note pondérée est égale à la note multipliée par le coefficient.

La moyenne est calculée à partir de la somme des notes pondérées rapportée à la somme des coefficients. Ici, il s’agit de 102/7 = 14,57

 


Définition: La moyenne pondérée est la somme des notes (xi) multipliées par un coefficient (qi), puis divisée par la somme des coefficients.

 

 

En réalité, une moyenne a toujours des coefficients, même quand on parle de la moyenne arithmétique simple (pour laquelle on pense ne pas en trouver). Ci-dessous l’illustration.

Appliquons un coefficient de 1 à toutes les matières. On remarquera que la somme des coefficients est égale au nombre de matières. Les notes sont multipliées par 1 et la somme des coefficient est égale à 8, c’est à dire au nombre de matières.

 

NB: La moyenne arithmétique simple est un cas particulier et est une moyenne avec pondération égale (ici de 1).

 

 

II-La moyenne des banques ou la moyenne géométrique

 

Cette moyenne s’applique dès lors que le total de valeurs fait intervenir une multiplication entre chaque valeur. C’est le cas typique des intérêts composés appliqués à un placement bancaire

Imaginons un placement bancaire rapportant 5 % la première année (pour l’incitation) et 3 % les autres années du placement.

 

 

 

Pour un placement de 100 unités monétaires, la première année rapporte 5 % de 100 UE, mais la deuxième année, le taux de 3 % s’applique au montant de la fin de la première année, c’est à dire à 105 UE.

Cette formule donne le résultat de P2, soit le montant du placement en année 2. P2 est égal à la somme initiale P0 augmentée de 5 %: P0(1+5%), puis d’une augmentation de 3 % appliquée au montant de la première année :P0(1+5%)(1+3%).

Le total de la seconde année est égale à (100+100*5%)+105*3 %. Par développement de la formule on aurait 100(1+5%+3%+5 %*3%). Le total n’est plus le fruit de simples additions et fait bien intervenir des multiplications. On remarquera que (1+5 %)(1+3%) -1 = 8,15 %, est le taux d’intérêt qui s’applique pour les deux ans.

 

Dans cette situation, la moyenne géométrique s’applique pour calculer un taux moyen sur deux ans. Cette moyenne géométrique repose au départ sur une moyenne de hausses : ici (1+5%) et (1+3%).

Définition: La moyenne géométrique est égale à la racine du nombre d'années n du produits des multiplicateurs x1*x2*....*xn

Dans notre cas la formule calculable est celle-ci : un placement sur deux ans avec une multiplication de 1,05 et de 1,03. On trouve une moyenne de 1,0387. Pour trouver le taux moyen, il suffit de retrancher 1 à ce résultat, soit un taux de 3,87 %. En appliquant la formule du début, on a P2 = 100(1+3,87%)(1+3,87 %) = 108,15. Remarque :à cause des arrondis on ne trouvera pas exactement le même résultat.

 

Dans un tableur (fonctionne sur Excel, sur Calc d’Open Office et sur Calc de Libre Office), la procédure pour calculer une moyenne géométrique est la suivante.

Il s’agit dans un premier temps de rentrer les multiplicateurs, puis de rentrer la formule : =MOYENNE.GEOMETRIQUE(A2:B2)-1.Ne pas oublier le -1 en fin de formule.

 

 

III- la moyenne des cyclistes et des marcheurs ou la moyenne harmonique

 

 

 

Cette moyenne particulière s’applique à des valeurs dépendantes d’autres avec lesquelles la relation est inverse. Pour rappel, une relation inverse se caractérise par le fait qu’une valeur varie positivement si la valeur de dépendance varie négativement, et vice-versa.

 

Ici, la vitesse V varie positivement quand le temps varie négativement. Prendre moins de temps pour parcourir une distance D, implique une plus grande vitesse.

 

Pourquoi une moyenne arithmétique ne fonctionne pas dans le cas précis ou l’on calcule la vitesse en fonction du temps variable et en fonction d’une distance fixe (constante) ? Une petite démonstration par un petit schéma.

 

 

Un marcheur décide de réaliser 20 km en deux jours en effectuant 10Km par jour. Néanmoins, la première journée est plus facile que la seconde, le terrain est plus facile.Le premier jour, il parcourt 10Km en 2h30, ce qui équivaut à 4km/h. Le second jour, il réalise les 10km en 3h00, ce qui donne une vitesse de 3,33 Km/h.

Si l’on faisait une moyenne arithmétique de la vitesse, on trouverait (7,33Km/h)/2 = 3,665 km/h par jour.

Mais il y a un hic et de taille ! Pour réaliser 10km le premier jour à ce rythme, il faut 10km/ 3,665km/h, soit environ 2h44. Pour le second jour, il faut aussi 2h44, soit un total de 5h46….alors que nous avons un temps total réalisé de 5h30 !

 

Il s’agit seulement de respecter la relation et tout se passe bien.

 

 

 

La vitesse moyenne est juste la distance totale (jour 1 et 2) divisée par le temps total (jour 1 et 2). Le temps total de 5h30 doit être converti en 5,5 pour échapper à la contrainte posée par le découpage du temps (60 secondes, 60 minutes etc..).

 

La moyenne V = 3,636 et non pas à 3,665, comme trouvé avec la première moyenne arithmétique

 

Néanmoins, il ne s’agit pas encore de la formule de la moyenne harmonique.

 

 

Nous savons que le temps est une distance rapportée à la vitesse

 


 

 

Par remplacement, le temps est exprimé selon le rapport entre la distance et la vitesse

 

 

Définition: La moyenne harmonique est le nombre de jours (dans ce cas), divisé par la somme des valeurs inverses des vitesses de chaque journée.

 

Comme les distances sont les mêmes on peut simplifier par cette formule, qui est la moyenne harmonique. Pratique quand on ne connaît que les vitesses de chaque étape (ici deux étapes : jour 1 et 2), avec

 

V1 = 4km/h et V2 = 3,33km/h. La vitesse moyenne est de 3.636km/h

 

 

Mais que se passe-t-il si ce marcheur décide de se fixer un temps de marche et non plus une distance ?

Le marcheur réalise donc 12 km le premier jour et 10km le second jour.

 

La vitesse moyenne reste toujours cette formule. Nous trouvons une moyenne de 3,666 Km/h, ce qui n’est pas sans rappeler le résultat de la moyenne arithmétique appliquée au début (avec très légère différence liée aux arrondis).

Seulement et seulement dans ce cas précis, on peut se permettre d’additionner les vitesses et les diviser par le nombre de laps de temps (qui sont égaux). Pour cause, la vitesse à une relation directe avec la distance : si la distance augmente et que le temps est constant, alors la vitesse augmente.

 

 

Dans le cas ou le marcheur ne fait ni les mêmes distances ni les mêmes temps de marche, il est utile de revenir à la formule suivante, même si la moyenne harmonique est pertinente.

 

Plus simple que la moyenne harmonique et demande exactement les mêmes données, d1,d2,t1,t2. Appliquer la moyenne harmonique permettrait de trouver le même résultat, mais est plus compliquée.

 

 

Un exemple de marche de 3h00 pour 14Km le premier jour et une autre de 4h00 pour 13 km le second jour.

 

 

Avec un tableur, le calcul est simple. Il suffit de rentrer la formule MOYENNE.HARMONIQUE(Vitesse1,Vitesse2,….Vitesse n)

 

Néanmoins, la formule implique le fait que les distances sont égales, donc pas de calcul ni pour les cas ou le temps est une constante, ni pour le cas ou distance et temps sont variables en même temps.

 

Pour les autres cas on peut utiliser cette formule, qui correspond à la formule « passe-partout »

Toutes ces moyennes intéressantes soient-elles pour aborder un sujet ne se suffisent à elles seules pour avoir une idée des faits et encore moins pour expliquer un phénomène. Pourtant très utilisée seule, elle expose au lecteur au biais d’interprétation.

 

 

IV – Les biais liée aux moyennes

 

 

 

Le premier biais est celui du calcul. Ce biais a été abordé de façon implicite ci-dessus, et il consiste à utiliser une moyenne inadaptée à une situation : utiliser une moyenne arithmétique à la place d’une moyenne géométrique pour les taux ou à la place de la moyenne harmonique pour les vitesses.

 

Le deuxième biais est le celui de confirmation d’hypothèse ou l’art d’interpréter un chiffre (ici une moyenne) en fonction de son idéologie, de ses sensibilités. La moyenne présentée seule peut devenir une machine à fantasme et alimenter l’adage « on peut dire tout et son contraire avec les statistiques » ou appuyer la formule célèbre de Mark Twain : « Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges et les statistiques. » (There are three kinds of lies: lies, damned lies, and statistics. Il est bon, donc de rappeler la nature même de la moyenne et surtout sa portée.

 

La moyenne est un indicateur synthétique, donc supprime des informations. Chose flagrante lors de comparaisons.

 

Comparons les notes de deux élèves : Antoine et Flora.

Ces deux élèves ont exactement la même moyenne de notes, c’est à dire 13. Néanmoins on s’aperçoit qu’Antoine est meilleur en matières scientifiques et sportives que Flora, qui est meilleure en lettres. La moyenne seule masque donc la répartition des notes selon les matières pour chaque élève. Et il est bien évident que nous sommes incapables d’expliquer pourquoi Flora et Antoine ont des points forts et faibles.

 

Si le biais d’interprétation de la moyenne est ici peu envisageable, le biais peut devenir fort à la lecture du tableau : « c’est normal, Flora est une fille et Antoine est un garçon et à coup sûr il doit être geek en plus ». Sauf que ce tableau ne dit rien de cela et cette réflexion est bien issue de clichés.

Dans ce cas ci, Flora est globalement meilleure qu’Antoine, mais un examen plus attentif nous montre que les écarts entre les notes d’Antoine sont moins forts que celles de Flora. Les notes de Flora augmentent même par paliers : 5, 13 et 18. Sans savoir expliquer pourquoi, cela reste de bons indicateurs d’orientations. On imagine mal Flora intégrer une faculté de sport et Antoine une faculté de langue.

De par sa nature, la moyenne n’est pas un indicateur solide et est influencée par les données qu’elle synthétise

 

Dans ce tableau, les notes du Ier et 2ème semestre sont les mêmes hors mis celles du sport. Varier une seule valeur entraîne une modification de la moyenne.

 

V - La chasse aux gaffes

 

Entre température maximum et moyenne, il faut choisir !

https://is.gd/80Mwdq

 

Cet article titre un article, sur un record (par rapport au passé) de la moyenne des températures maximales à mai 2018 à Uccle (Belgique), de « Température maximale moyenne record en mai ».

 

Voilà un titre bien embarrassant pour son interprétation. Une température ne peut pas être maximale avant d’être moyenne, pour ensuite être comparée au temps long. Un paradoxe curieux

 

En visitant le site de l’IRM, sur cette page, nous retombons sur nos pattes https://is.gd/NHTqNF, ce qui permet d’éclairer l’article.

Le défaut principal de cet article est de ne pas avoir défini clairement les notions dès le début. Il s’agit en fait d’une moyenne des températures maximales journalières du mois.

Il est dans l’habitude de relever le minimum et le maximum dans une journée.

 

La valeur ici est de 21,7°c contre une norme de 18,1°c. Voilà une norme qui sort du chapeau ! En réalité, il s’agit d’une moyenne de moyennes mensuelles de températures maximale entre 1981 et 2010 (voir rapport PDF).

 

Le paragraphe sur la température moyenne ne pose pas de problème particulier.

 

 

 

 

 

 

 

 

 

 

 

 

 

Publicité
Publicité
Commentaires
Cultur'Stats
Publicité
Archives
Newsletter
Publicité