Une piste pour évaluer les entraîneurs

Évaluer l’impact d’un coach sur les résultats de l’équipe est crucial pour les dirigeants d’un club de football. Que ce soit dans le cadre de la sélection d’un nouvel entraîneur ou dans l’évaluation de son travail quotidien.

Mais qu’est-ce qu’un bon coach ?

  • Un coach qui gagne bien évidemment, mais que veut dire “gagner” pour une équipe de milieu de tableau ?
  • Un coach qui remporte des trophées
  • Un coach qui pratique un football plaisant à regarder
  • Un coach qui maximise son groupe et tire le meilleur de ses joueurs
  • Un coach qui fait mieux qu’attendu

La liste est longue sans qu’on ne puisse vraiment se positionner. Explorons donc quelques unes de ces pistes.

Un coach qui gagne

La première idée qui vient en tête consiste à regarder le pourcentage de victoires. Sur la période qui démarre au début de la saison 2013 et s’arrête le 23 décembre 2018 en Ligue 1, nous obtenons le classement suivant. On voit très vite les limites d’un tel classement. Tout d’abord, sont mis sur la même échelle des entraîneurs ayant disputé un nombre très différent de rencontres. Ensuite, il semble particulièrement injuste de comparer le travail de coaches ayant des effectifs de qualités éparses. Enfin, on ne tient pas compte via cette métrique, des matchs nuls, qui ont évidemment leur importance.

La disparité du nombre de matchs disputés par entraîneur rend la comparaison difficile. On le voit ci-dessous, sur les 81 entraîneurs évalués ici, 31 ont disputé entre 0 et 20 matchs, ce qui nous met en proie à des problèmes de taille d’échantillon. Les 25 entraîneurs ayant disputé le plus de match sur la période cumulent entre 76 et 190 rencontres, avec des résultats hétérogènes. Pour tenter de résoudre le problème du nombre de matchs disputés on utilisera la sempiternelle technique qui consiste à filtrer sur un nombre de matchs minimal, d’où le graphique suivant. Le meilleur entraîneur serait donc Unai Emery puis Laurent Blanc etc… Mais cela ne règle aucunement notre problème puisque les entraîneurs des équipes dominatrices seront ceux qui glanent le plus de point. Toutefois, ceci n’empêche pas des entraîneurs avec moins de victoires de continuer à exercer en Ligue 1. Ce qui n’a rien de choquant encore une fois, puisqu’ils doivent composer avec les joueurs à leur disposition. Mais continuons l’analyse car c’est justement à ce problème qu’il faut répondre.

Un coach qui pratique un football plaisant à regarder

S’arrêter uniquement sur les performances offensives de l’équipe, par exemple, le nombre de buts par match, nous met en proie aux mêmes critiques que celles exposées ci-dessus : pas de raison de ne pas voir les mêmes têtes en haut des charts.

On peut toutefois s’essayer à identifier les coaches “offensifs”. Pour ce faire, je reprends in extenso la méthode du brillant Luis Usier, qui consiste à calculer l’équilibre attaque / défense d’une équipe. Ainsi, une équipe peut avoir une différence de buts négative mais être considérée comme offensive ou “déséquilibrée” vers l’attaque si elle perd des matchs tout en inscrivant plus de buts que la moyenne (je vous laisse lire l’article de Luis si vous voulez plus de détails méthodologiques). Sans attendre, une illustration en schéma. On retrouve en haut à gauche le coach de Dijon : Olivier Dall’Oglio, connu pour pratiquer un football attrayant mais pas toujours très efficace quand il s’agit d’engranger des points / marquer plus de buts que l’adversaire. Tout en bas Michel Der Zakarian, coach connu pour sa rigueur défensive surtout depuis sa période montpéllieraine ; nul doute que les bons résultats s’accumulant, nous le verrons petit à petit se déplacer vers la droite. En bas à droite quelques entraîneurs plutôt pragmatiques et efficaces. Parmi les coach offensifs et avec une différence de buts positive, Bruno Génésio et Rudi Garcia figurent en tête du classement des coaches les plus “déséquilibrés” vers l’offensive, ce qui ne surprendra probablement personne.

Cette analyse est intéressante en soi et particulièrement révélatrice d’un style de jeu. Elle peut même permettre d’orienter le choix de recrutement d’un coach, si, à efficacité équivalente, deux coaches sont disponibles sur le marché. Mais elle ne tient toujours pas compte de l’effectif avec lequel le coach travaille.

Un coach qui fait mieux qu’attendu

Faire mieux qu’attendu semble être la voie à suivre si l’on veut positionner sur la même échelle des entraîneurs disposant d’effectifs plus ou moins qualitatifs. Mais qu’entend-on par “mieux qu’attendu” ?

A ma connaissance, deux excellentes études ont travaillé en ce sens.

La première de Julien Assunçao qui a le mérite d’utiliser la valeur de l’effectif via les données de Goalimpact. C’est une très bonne méthode, et probablement la meilleure de toutes, mais elle suppose d’avoir accès aux données de Goalimpact ou de se doter d’un modèle d’évaluation des joueurs de ce type, ce qui est extrêmement complexe à mettre en oeuvre.

La seconde est l’oeuvre de Marek Kwiatkowski l’an dernier à l’OPTAPro forum. L’idée sous-jacente est de mesurer le boost que procure un entraîneur aux expected goals de son équipe à la fois offensivement et défensivement. C’est encore une fois une très bonne idée et qui a le mérite d’être moins coûteuse à mettre en oeuvre que la méthode précédente.

La fameuse piste…

Une autre façon de quantifier l’attendu est de se tourner vers le marché des paris sportifs et ses cotes. Cela a été montré, les cotes au closing (juste avant le coup d’envoi) sont très proches des “vraies” probabilités de résultat1. Les cotes des bookmakers ne sont en effet rien d’autre que les probabilités d’occurence des résultats d’un match, auxquelles vient s’ajouter leur marge. Par exemple, Marseille - Toulouse du 10 août 2018 recevait avant le début du match les cotes suivantes chez Pinnacle (domicile, nul, extérieur).

mars_toul <- c(1.48, 4.53, 7.70)

En inversant ces cotes, on obtient un pourcentage qui correspond aux probabilités de chaque résultat possible, à ceci prêt que le total n’est pas égal à 1, du fait de la marge mentionnée plus haut.

percent(1 / mars_toul, digits = 0)
## [1] 68% 22% 13%
sum(1 / mars_toul)
## [1] 1.026296

Pour enlever cette marge, de multiples méthodes existent et le package R implied a été développé par Opisthokonta pour automatiser les calculs tout en évitant certains biais.

res1 <- implied_probabilities(mars_toul, method = "wpo")

percent(res1$probabilities, digits = 0)
##      [,1] [,2] [,3]
## [1,] 67%  21%  12%
sum(res1$probabilities)
## [1] 1

On arrive bien au résultat souhaité : Pinnacle considérait que Marseille avait environ 67% de chance de l’emporter contre Toulouse.

Une fois ces probabilités obtenues, on peut ensuite calculer les points attendus pour les deux équipes. Pour Marseille, on multiplie le premier élément du vecteur : la probabilité de victoire à domicile, par 3 comme le nombre de point en cas de victoire et on ajoute la probabilité de match nul. Et on fait le contraire pour Toulouse.

sum(res1$probabilities[1] * 3 + res1$probabilities[2])
## [1] 2.212716
sum(res1$probabilities[3] * 3 + res1$probabilities[2])
## [1] 0.5752991

Ceci nous donne pour Marseille 2.21 points attendus, et 0.58 pour Toulouse.

Il ne reste plus qu’à appliquer la méthode à l’ensemble des données pour obtenir les points attendus pour chacune des équipes impliquées dans les matchs de Ligue 1 depuis la saison 2013/2014. Les données des bookmakers proviennent de football-data.co.uk et sont directement disponibles au téléchargement.

Tout ceci me donne, après quelques manipulations et récupération des coaches, les données suivantes (extrait).

## # A tibble: 4,156 x 7
##    manager            opp_man             prob_h prob_d prob_a  xPts   Pts
##    <chr>              <chr>                <dbl>  <dbl>  <dbl> <dbl> <dbl>
##  1 Bruno Génésio      Patrick Collot       0.665 0.207  0.128   2.20     0
##  2 Bernard Casoni     Olivier Dall'Oglio   0.496 0.257  0.247   1.74     0
##  3 Christophe Galtier Claude Puel          0.599 0.245  0.157   2.04     3
##  4 Thomas Tuchel      Stéphane Moulin      0.892 0.0781 0.0295  2.76     3
##  5 Leonardo Jardim    Christophe Galtier   0.853 0.0995 0.0470  2.66     3
##  6 Stéphane Moulin    Philippe Hinschber…  0.495 0.295  0.210   1.78     3
##  7 Michel Der Zakari… Jean-Louis Gasset    0.417 0.305  0.279   1.55     1
##  8 Christian Gourcuff Claudio Ranieri      0.270 0.298  0.432   1.11     1
##  9 Pascal Dupraz      Christian Bracconi   0.615 0.252  0.133   2.10     1
## 10 Hubert Fournier    Rolland Courbis      0.321 0.316  0.363   1.28     0
## # ... with 4,146 more rows

Lors du premier match du tableau, l’équipe de Bruno Génésio était créditée par les bookmakers de 2.20 points attendus et en a finalement pris 0. Prises de manière brute, ces données donneraient les résultats suivants pour Rudi Garcia.

La méthode va donc consister à modéliser, pour chaque coach, l’écart entre les points attendus et les points réellement engrangés.

Ceci a pour avantage de positionner sur la même échelle des coaches ayant affaire à des effectifs variés, tout en tenant compte de des matchs joués à l’extérieur ou à domicile. De plus, le modèle utilisé ici, semblable à celui utilisé lors du précédent article tient compte du nombre de matchs : moins un coach a de matchs à son actif plus son niveau de performance sera “poussé” vers la moyenne, reflétant en quelque sorte le manque d’informations à son sujet.

Le modèle utilisé ici est une régression “ordinale”, puisqu’on cherche à prédire le nombre de points et que seulement 3 valeurs sont possibles : 0, 1 ou 3 avec 0 < 1 < 3. Les variables dépendantes qui composent le reste du modèle sont l’identité du coach, les points attendus par les bookmakers et le terrain (domicile ou extérieur). Le tout est intégré à un framework bayésien.

… et des résultats peu conclusifs

De prime abord le classement paraît relativement rassurant : on retrouve tout en haut deux entraîneurs ayant obtenu des résultats probants et, en avant dernière position, le tristement célèbre Michel. Autre satisfaction, le classement n’est pas dominé par les entraîneurs qui engrangent le plus de points par match, ce qui était un point important de l’étude. Ainsi, Unai Emery malgré un total de 2.5 points par match sur la période (un des meilleurs on l’a vu plus haut) se retrouve en bas de classement, le modèle n’appréciant probablement pas la saison 2016/2017 et le titre perdu au détriment de Monaco. Je laisse les supporters d’Arsenal donner leur opinion sur le natif de Fontarrabie.

Hélas, la prudence doit rester de mise. L’effet “coach” décelé par le modèle est très faible, proche de zéro comme on le voit sur le graphique. Autrement dit, l’impact détecté du coach versus les points prédits par les bookmakers est minuscule. De plus, les barres d’erreur (ici intervalles de crédibilité à 75%) sont extrêment larges, insinuants un niveau de certitude peu élevé. Par exemple, selon le modèle, nous n’avons pas de certitude parfaite sur le fait que Lucien Favre soit meilleur que la moyenne et ait donc une contribution positive en points gagnés. On peut d’ailleurs calculer ce niveau de certitude.

l_favre <- m %>%
  spread_draws(r_manager[manager,]) %>%
  filter(manager == "Lucien.Favre") %>%
  ungroup() %>%
  select(r_manager)

mean(l_favre > 0)
## [1] 0.65875

Le modèle estime qu’il y a 66% de chances que Lucien Favre soit meilleur que la moyenne, ce qui peut paraître décevant quand on sait ce qu’il a accompli avant, pendant et après sa période Niçoise. Que nous indique le modèle pour Rudi Garcia ?

r_garcia <- m %>%
  spread_draws(r_manager[manager,]) %>%
  filter(manager == "Rudi.Garcia") %>%
  ungroup() %>%
  select(r_manager)

mean(r_garcia > 0)
## [1] 0.537125

Un niveau de certitude encore plus faible, quasiment un pile ou face.

On peut également comparer les coaches entre eux et obtenir la probabilité qu’un soit meilleur que l’autre. Pour illustrer à nouveau le fait que le modèle ne donne pas un niveau de certitude satisfaisant, comparons le numéro 1 au dernier du classement.

d_arrib <- m %>%
  spread_draws(r_manager[manager,]) %>%
  filter(manager == "Dominique.Arribagé") %>%
  ungroup() %>%
  select(r_manager)

mean(l_favre > d_arrib)
## [1] 0.685

Là encore, on ne peut pas dire avec une parfaite certitude que Lucien Favre ait un impact supérieur à celui de Dominique Arribagé.

Pour conclure, ce modèle simpliste est une tentative intéressante mais frustrante statistiquement parlant, à partir de laquelle peu de décisions peuvent être honnêtement prises. C’est dommageable car c’est un des objectifs de l’usage des statistiques dans le sport.

Une piste à explorer pourrait être d’intégrer au modèle la masse salariale “joueurs” du club ou une information publique approchante, ce qui offrirait un proxi pour la qualité de l’effectif (si tant est que les joueurs soient rétribués proportionnellement à leur contribution au score). Peut-être dans un futur article ?

D’ici là, n’hésitez pas à me faire part de vos feedbacks sur Twitter.

Limites et discussion

Une des raisons pour lesquelles l’impact des coaches est difficilement perceptible ici tient sûrement au fait que les bookmakers intègrent déjà cette composante dans leurs modèles. Il n’empêche qu’ils arrivent encore à être surpris à court terme.

Un coach de qualité, par définition, dépasse les attentes. En revanche les compétences requises ne sont pas forcément les mêmes en fonction du contexte : tirer le meilleur de ses joueurs pour éviter la relégation et lutter pour le titre sollicitent probablement des qualités distinctes et il est donc légitime de se demander si les bonnes performances de Ghislan Printant sur le banc bastiais sont reproductibles pour une équipe de haut de classement.


  1. Si tout cela vous intéresse, je vous invite à lire ce papier de Joseph Buchdahl.