Mitroglou et la régression (2)

Chose promise chose due, voici la deuxième partie de mon article sur l’atypique Mitroglou. La première partie avait pour but d’étudier sa capacité à convertir ses occasions et à le positionner par rapport à ses pairs sur cet exercice.

La présente partie aura le même objectif mais en introduisant une composante absente initialement : la qualité des occasions qu’il se procure. On parlera évidemment de ses Expected Goals, dans une optique de performance par rapport à un nombre de buts attendus. Les Expected Goals ou xG sont souvent utilisés pour identifier des périodes temporaires de réussite ou de malchance mais on peut les utiliser différemment lorsque l’on souhaite étudier les qualités de finition d’un joueur.

Equipe Tirs Buts xG perf_ratio
Olympiacos 70 12 9.0 1.3
Fulham 7 0 0.3 0.0
Benfica 93 19 16.6 1.1
Marseille 70 12 15.9 0.8

Le ratio de performance 1.0

Fait-il mieux que ce qu’on peut attendre de lui ?

Par ratio de performance, j’entends ici simplement \(\displaystyle \frac{Total\;buts} {Total\;xG}\), si bien qu’un ratio de \(1\) signifie une performance conforme aux attentes. On voit ci-dessus que Mitroglou a été, hors penalty, en surperformance en Grèce1 et au Portugal, mais est en retrait depuis son arrivée dans la cité phocéenne. Manque de confiance, hausse du niveau du championnat, méforme passagère, style de jeu inadapté ? Les explications sont potentiellement multiples et potentiellement aussi, toutes valables.

En visualisant l’évolution de son ratio de performance \(\displaystyle \frac{But} {xG}\), on note en effet une tendance baissière et un ratio qui se rapproche d’une performance conforme à ses Expected Goals.

Plus les tirs passent plus le poids du passé pèse sur le ratio, et il faut enchaîner les buts pour inverser la tendance.

Dimitri Payet maintient au fil du temps un ratio de performance exceptionnel par exemple, et Florian Thauvin voit son ratio progresser au gré des buts qui s’empilent.

Balotelli qui a surperformé très tôt dans sa carrière puis s’est fait rattraper par ses xG après notamment une période de 40 tirs sans buts à City. Il semble toutefois sur de bon rails à Nice (jusqu’à il y a peu) avec un niveau de performance qui remonte au niveau de la barre des 1.

On peut également visualiser l’évolution du niveau de performance de l’ancien pensionnaire de Liga NOS en comparant le nombre de buts marqués aux xG qui s’accumulent au fil des occasions. Les lignes bleues (les buts) et grises (les xG) se rapprochent dangereusement depuis son arrivée à Marseille, alors qu’il sortait de sa période lisboète avec un certain crédit.

Et par rapport aux autres ?

Si l’on s’en tient à ces visuels, Mitroglou est donc un buteur qui, sur l’ensemble de sa carrière, semble faire un peu mieux qu’attendu sans toutefois démontrer un niveau de finition exceptionnel par rapport à la difficulté des tirs qu’il tente. Plusieurs remarques cependant :

  • Le modèle ne tient pas compte du championnat dans lequel sont tentés les tirs
  • Le ratio en tant que tel dépend du nombre de tirs tentés et n’est pas très parlant en soi. Il est également difficile de positionner le joueur par rapport au reste de l’échantillon étudié : comment performent les meilleurs attaquants des championnats européens ?

Vous êtes désormais habitués à la forme caractéristique ci-dessous si vous me suivez depuis un moment : plus un joueur tire, plus son ratio se rapproche de 1 avec une limite cependant, on ne laisse pas sur le terrain des joueurs qui sous performent. A partir d’un certain volume de tirs il y a beaucoup plus de joueurs au-dessus de 1 qu’en dessous. On retrouve le natif de Kavala là où on s’y attendait : un niveau de finition moyen en rapport à son volume de tir.

Le ratio de performance 2.0

Tous les buts ne se valent pas

Un moyen de contourner les limites mentionnées ci-dessus est d’utiliser une technique de modélisation appelée “multilevel modelling”, ceux qui sont intéressés trouveront des détails en annexe. Ce qu’il faut retenir c’est que ce type de modèle facilite la comparaison entre joueurs. En somme, il permet de “relativiser” le fameux ratio de performance par rapport au nombre de tirs tentés mais aussi d’intégrer d’autres variables comme le championnat ou même le gardien adverse. En caricaturant, ce ratio va être “poussé” vers la moyenne en proportion inverse du volume de tirs tentés : moins un joueur tire plus son ratio est “poussé” vers la moyenne, ceci pour refléter le manque d’information que nous avons sur la “vraie” valeur du joueur. Par exemple, un joueur ayant marqué un but sur un tir avec un xG de \(0.05\) devrait avoir un ratio de performance de \(\displaystyle \frac{1}{0.05} = 20\), très loin d’un niveau moyen de \(1\) alors que notre niveau de certitude sur ce joueur est quasi nul. D’ailleurs, un joueur qui marque un but sur un tir avec un xG de \(0.2\) devrait avoir un ratio de performance de \(5\). Bien moindre que le joueur précédent…

Pour mieux comprendre ce phénomène et ses conséquences, il est important d’avoir en tête que la distribution de la probabilité de marquer par tir est loin d’être “normale”. En effet, une écrasante majorité des tirs d’un échantillon de 516 817 tirs a moins de 10% de finir en but. Ceci se confirme quand on regarde le taux de conversion moyen de l’échantillon, qui est de moins de 10%.

mean(full_shots$goal)
## [1] 0.09632749

Evidemment, chaque joueur a sa propre distribution en fonction de la difficulté des tirs tentés. Quelques exemples représentatifs : Bas Dost qui a le meilleur xG moyen par tir et Florent Balmont un des pires de mon échantillon. La ligne verticale représente le xG médian, il y a donc autant de tir avant qu’après cette ligne. Ce qu’il faut retenir ? Que le profil de tir du joueur a une influence sur son ratio de performance. La raison en est simple, le modèle va créditer davantage un joueur qui transforme des tirs difficiles qu’un renard des surfaces qui marque des buts considérés comme “faciles”, puisqu’on retrouve la valeur du xG du tir au dénominateur du ratio.

Ça donne quoi ce nouveau ratio ?

Déjà ce n’est pas un ratio mais un coefficient (dommage). Ce coefficient représente en quelque sorte la contribution du joueur à la probabilité de transformer le tir en but, au-delà d’autres éléments d’un modèle classique d’Expected Goals comme la distance, l’angle, la zone du corps, etc… Ce ratio “modélisé” ou coefficient, est centré autour de zéro (la moyenne) et 75% des joueurs sont compris entre -0.1 et 0.1. Contrairement au ratio classique, plus le nombre de tir d’un joueur est élevé, plus l’estimation de sa qualité de finition aura tendance à s’écarter de la moyenne, c’est en quelque sorte l’effet inverse. En effet, le modèle “considère” qu’il a suffisamment de certitude pour estimer la performance comme probante. Cela marche pour la surperformance mais également sous-performance. Mais le biais du survivant est clairement marqué ici, on note une proportion importante de superformeurs parmi les gros tireurs : il faut être bon pour durer.

Et Mitro ?

Encore une fois, Mitroglou est au-dessus de la ligne de flottaison, sans toutefois clairement s’en éloigner. Sur les 5 848 joueurs de mon échantillon il se positionne en 1 268e position, soit dans le 78e percentile. L’intérêt de ce modèle c’est qu’il permet de comparer toute sorte de profil de joueurs entre eux, indépendamment du type de tirs qu’ils vont tenter. Illustration ci-dessous pour les joueurs qui, comme Mitroglou ont tenté entre 230 et 250 tirs. On constate ici d’une part qu’il y a bien une corrélation forte entre le ratio initial et le ratio modélisé, ce qui est plutôt rassurant, mais qu’en revanche il n’y pas de lien entre taux de conversion et niveau de performance : on retrouve de part et d’autre du 0 horizontal des joueurs à l’efficacité variable et donc des joueurs qui, pour un nombre de tir équivalent, sont considérés comme plus performants tout en ayant marqué moins de buts (et inversement). C’est une force mais aussi une des limites de l’utilisation de ce modèle qui ne tient pas directement compte de l’efficacité (efficience si l’on veut être précis) et donc éventuellement de possessions laissées à l’adversaire suite à des tirs forcés ou sans danger.

Une façon de corriger cela serait de regarder la performance de joueurs ayant une efficacité (un taux de conversion) similaire ou meilleure que celle de Kostas Mitroglou et de voir ou se positionne le grec. On le voit ci-dessous Mitroglou a un taux de conversion relativement élevé, mais un taux de conversion doit toujours être rapporté à la difficulté des tirs tentés (d’où notre modèle). Un deuxième élément important si l’on veut limiter le risque de se tromper est de regarder l’erreur type de l’estimation de la performance du joueur. Bien que cette erreur type soit fortement corrélée au nombre de tirs tentés par un joueur, dans ce type de modèle complexe, j’ai remarqué qu’à nombre de tir équivalent il pouvait y avoir des écarts importants d’erreur type et donc de confiance que le modèle accorde à l’estimation du “talent” du joueur. Cette erreur varie en fonction de plusieurs paramètres dont la qualité des tirs tentés, mais aussi (cf. annexes), le championnat dans lequel le joueur a évolué. Partant de là, comment l’actuel phocéen performe face à des joueurs au moins aussi efficaces que lui et pour lesquels l’estimation de leur capacité de finition offre un bon niveau de confort ? Rappelons d’abord que 0.0 signifie un niveau de performance conforme mais également la moyenne de l’échantillon total utilisé pour la modélisation. Très peu de joueurs de notre échantillon filtré sont en territoire négatif, résultat probable d’un biais du survivant puisqu’il s’agit ici de joueurs ayant tous plus de 227 tirs à leur actif et donc qui ont eu le temps de démontrer leur valeur. Ensuite l’amplitude des barres d’erreur représente l’intervalle de confiance à 95%, directement corrélé à l’erreur type mentionnée plus haut. Des joueurs ayant beaucoup tirés ont un intervalle plus étroit. Dans l’absolu, les joueurs ici sont tous efficaces avec un taux de conversion très élevé, mais tous n’ont pas le même mérite et celui qui dépasse de très loin tous les autres est of course Lionel Messi. La liste dans son ensemble ne réserve pas beaucoup de surprises mis à part quelques anciens ou joueurs néerlandais ayant convertis à un rythme intéressant.

Quant à Kostas, il est plutôt en bas de cette liste, proche de 0.0, avec un intervalle de confiance relativement large, ce qui peut laisser présager des fluctuations à venir à la hausse comme à la baisse. Bien qu’en bas de cette liste est-il pour autant un mauvais finisseur pour un joueur de son profil ? La réponse est non. Est-il un excellent finisseur, la réponse est également non. Certaines pistes des derniers mercatos semblent mieux positionnées quant à leurs qualités de finition (Carlos Bacca, Chicharito, sans parler de Ben Yedder…). En l’état actuel des choses, si je devais toutefois choisir entre Germain et Mitroglou je privilégierais ce dernier pour deux raisons : Germain n’est pas dans la liste ci-dessus, il est donc moins efficace ou le niveau de certitude sur lui est plus faible (ndlr : réponse 1) et deuxièmement la combinaison de son volume de tirs et de la qualité de ses occasions est plus faible que celle de l’ancien joueur de Benfica. Et pour quitter totalement le domaine des statistiques, la confiance joue très sûrement un rôle dans la réussite d’un buteur, et en l’occurrence je ne vois pas l’intérêt d’instaurer un turnover entre les deux, sachant en plus qu’ils ne sont pas vraiment des attaquants de haut vol.

Limites de l’étude

L’étude ne concerne ici qu’un aspect (certes essentiel) du jeu d’un attaquant c’est-à-dire la finition mais bien d’autres facteurs entrent en ligne de compte lorsqu’il s’agit de recruter ou de titulariser un numéro 9 : l’attitude, le travail défensif, le jeu avec les partenaires, la puissance physique, la technique, la vitesse, l’agent, …

Par ailleurs, le modèle est évidemment dépendant des données mises à sa disposition, et il en manque ici des éléments importants comme la pression défensive subie au moment du tir ou la position des défenseurs et du gardien au moment du tir. Les noms qui remontent laissent à penser que les excellents finisseurs sont malgré tout identifiés.

Un autre aspect très important non évoqué ici et qui pourra potentiellement faire l’objet d’un autre article est la capacité à se procurer des occasions, c’est-à-dire à être trouvé par ses partenaires. Il faudrait idéalement modéliser le nombre de tir par 90 minutes qu’un joueur est intrinsèquement capable de se procurer.

Enfin, les barres d’erreur sont encore relativement larges et le football étant par nature un sport avec peu d’occasions, les positions peuvent évoluer relativement rapidement. Prudence dans l’interprétation des chiffres et des données et dans les conclusions qu’on en tire.

Annexe méthodo

J’utilise 516 187 tirs depuis 2010 pour les championnats mentionnés dans le visuel ci-dessous. Note importante les données s’arrêtent à fin août sauf pour Mitroglou où la collecte s’arrête au 20 octobre.

La modélisation de ces tirs est une régression logistique opérée via la librairie lme4 avec les variables indépendantes habituelles d’un modèle d’Expected Goals (distance, angle, zone du corps, etc…). Les variables qui font l’objet d’un traitement à part et dont on veut connaître l’influence en tant que “groupe” sont : les joueurs et les championnats. Les joueurs car on cherche à connaître leur performance et les championnats pour tenir compte de leur niveau relatif dans l’évaluation des joueurs.

La méthode utilisée ici est proche de celle utilisée par Marek Kwiatkowski dans cet article. Il en a d’ailleurs publié entièrement le code source pour ceux que ça intéresse.

La bible sur ce type de modélisation est cet ouvrage d’Andrew Gelman, probablement aussi un des meilleurs ouvrages de statistiques que j’ai eu entre les mains.


  1. Compétitions européennes uniquement pour la période Olympiacos.