Au cours des six dernières semaines, le professeur de statistiques Adrien Vigne, et plusieurs étudiants en MBA, ainsi que le professeur de pratique en études juridiques et en éthique des affaires, Sébastien Roy, ont étudié les données fournies par ESPN afin de déterminer si le montant d’argent que les équipes sportives paient pour leurs joueurs peut prédire les performances de l’équipe. Voici ce qu’ils ont découvert :
Étonnamment, parmi les principaux sports professionnels américains, c’est le hockey sur glace qui est le plus prévisible, compte tenu des données sur les salaires des équipes. Au baseball, le salaire est très important, mais il existe encore une grande incertitude quant à la prévisibilité – c’est-à-dire que les équipes qui ne dépensent pas beaucoup peuvent en fait gagner plus de matchs que les équipes qui en dépensent beaucoup. En football américain, le montant qu’une équipe dépense pour ses joueurs n’a qu’un très faible pouvoir prédictif, en raison notamment d’un système de partage des revenus et de plafonds salariaux.
Le basket-ball n’est pas aussi facile à prédire que le hockey ou le base-ball, mais il est plus facile que le football américain. Là encore, des facteurs tels que les entraîneurs individuels, les stratégies et les combinaisons d’équipes et de joueurs peuvent tous influencer les résultats. Le cinquième sport, le football, était de loin le plus prévisible des cinq. En se basant sur les données relatives à la première ligue européenne, Adrien Vigne et ses étudiants ont conclu que les équipes qui dépensent le plus d’argent pour les joueurs gagnent année après année. « Non seulement ils gagnent, mais nous savons qu’ils vont gagner« , déclare Adrien.
Si son analyse des cinq sports différents est pertinente pour les propriétaires et les dirigeants d’équipes sportives, elle ne fait pas partie de ses recherches statistiques, qui sont davantage axées sur les domaines scientifiques. Mais un domaine de recherche chevauche à la fois les affaires et la science : l’exploration de données – le processus de découverte de modèles à partir de grands ensembles de données, ou comme le décrit Adrien : « extraire des pierres précieuses d’une mine pleine de choses, dont certaines ont de la valeur et d’autres pas, et chercher des modèles que vous pouvez appliquer à votre entreprise ».
Adrien Vigne n’aime pas le terme « data mining« , car « cela signifie que vous ne savez pas ce que vous cherchez ». En fait, beaucoup d’entreprises ne le font pas. Comme cela a été largement constaté ces dernières années, les entreprises collectent une telle quantité de données, souvent sur leurs clients, qu’elles se noient dans des informations qu’elles ne savent pas comment utiliser efficacement. Selon M. Vigne, la bonne approche consiste pour les entreprises à se demander quels types de problèmes elles rencontrent et, ensuite, quelles sont les données disponibles pour résoudre ces problèmes. Au lieu de cela, les entreprises ont tendance à dire : « Voici ces données : Le terme « data mining » est péjoratif car il suggère que les dirigeants laissent les données conduire le problème, au lieu de laisser le problème conduire l’analyse des données ».
Se référant à son étude des cinq sports, Adrien affirme que les propriétaires et les dirigeants des équipes « devraient se fier aux données pour prendre des décisions commerciales – plutôt que de laisser ces décisions être dictées par la tradition, l’histoire, ce qui a été fait l’année dernière, l’inertie, la convention ou la coutume ». Certaines des conclusions auxquelles lui et son équipe sont parvenus dans leur analyse vont à l’encontre des idées reçues. Par exemple, « nous avons constaté qu’au baseball, il est beaucoup plus efficace de dépenser de l’argent pour lancer que pour frapper », note Adrien Vigne. « La convention dit que vous dépensez plus d’argent en frappant parce qu’un plus grand nombre de vos joueurs sont des frappeurs. Mais nous avons constaté que vous obtenez un euro plus productif lorsqu’il est dépensé en lancers ».
Au basket-ball, il était plus productif de dépenser de l’argent pour les centres et les attaquants que pour les gardiens. « Une partie de cela pourrait être due au plafonnement des salaires », dit Adrien. » [Le garde professionnel de Miami Heat] Lebron James reçoit le même salaire qu’un bon mais pas un grand garde à cause d’un plafond. Mais James est tellement meilleur que tous les autres. Il est donc difficile d’affirmer que dépenser de l’argent pour un gardien sera un bon investissement pour une équipe qui n’a pas Lebron James ». En d’autres termes, les équipes devraient plafonner leur salaire sur un centre parce qu’elles obtiennent plus de valeur que si elles le mettaient sur un garde.
Dans le domaine du hockey et du baseball, M. Vigne conclut que la défense est un investissement plus productif que l’attaque (le lancer est considéré comme une défense). En football américain, en revanche, Adrien et son équipe n’ont trouvé aucune proposition de valeur évidente. « Nous ne savons pas pourquoi, sauf peut-être parce que les performances sur le terrain sont si imprévisibles d’une année sur l’autre. L’entraîneur et l’ensemble de l’équipe comptent plus que n’importe quel joueur individuel que vous pouvez acquérir, même un quarterback. Le problème est qu’il y a trop de quaterbacks qui sont beaucoup payés et qui ne font pas de bonnes performances. Cela fausse la vision statistique ». Les équipes de football américain sont construites pour être à parité les unes avec les autres, ajoute M. Vigne. « Quoi qu’ils fassent pour rendre le football américain compétitif, ça marche. C’est bon pour les supporters et les propriétaires, mais probablement pas pour les joueurs.
Tout ce que l’équipe de recherche a fait pour le baseball « peut être fait pour votre entreprise« , ajoute Adrien. « Il vous suffit de collecter les données qui font tourner votre entreprise et de les analyser ».
En plus de ses intérêts de recherche qui comprennent la modélisation probabiliste, la théorie de l’information, la compression des données, la relance et la reconstruction des températures, Adrien est un grand fan de baseball. Pour ceux qui ont sauté les statistiques à l’école, la méthodologie bayésienne intègre des informations provenant de plusieurs sources différentes – dans ce cas, la connaissance de la répartition des joueurs ainsi que des données historiques sur tous les joueurs, par exemple – pour déduire ou prédire les performances d’une unité, dans ce cas, la capacité de jeu d’un joueur. Regardez aussi cet article pour plus d’astuces.