Trouver rapidement une alternative à Olivier Giroud

On le sait, le dossier Giroud est très compliqué. Le joueur ne semble pas emballé à l’idée de quitter l’Angleterre, Arsenal n’a pas forcément envie de s’en séparer et enfin financièrement, l’Olympique de Marseille veut s’y retrouver. D’où l’idée de chercher un plan B crédible.

1. Les données

Mon échantillon est constitué de 600 buteurs (Fwd sur WhoScored) issus des 5 grands championnats lors des 4 dernières saisons (2013/2014-2016/2017).

A cet échantillon dont Giroud fait partie, j’ai appliqué deux filtres :

  • au moins 4000 minutes jouées en carrière en tant que titulaire (à l’OM on n’aime pas prendre de risque et on veut des joueurs capables d’évoluer dans des environnements à haute intensité).
  • 30 ans ou moins : on se projette sur au moins deux saisons de haut niveau.

2. Le profil de Giroud

En cumulé sur les 4 dernières années, Giroud a eu la production suivante (par tranches de 90 minutes) :

Minutes 7882
Buts hors penalty 0.51
Tirs 3.17
Duels aériens 7.96
Dribbles 0.50
Passes clés dans le jeu 1.24
Interception + tacles 1.50
Taux de conversion 16.18%

Le profil de Giroud se caractérise évidemment par sa capacité à évoluer en pivot et donc par une présence aérienne significative. Commençons donc simplement par demander à l’algorithme de regrouper les joueurs par buts et duels aériens.

3. Qui lui ressemble ?

Il nous propose l’arbre de classification suivant :

dendnew

(pour plus de détail sur comment lire cet arbre cf. méthodo en fin d’article)

Les résultats semblent cohérents, le joueur le plus proche de lui est Anthony Modeste,  hélas malgré un intérêt de l’OM, ce dernier est déjà parti en Chine. Pas loin sur la même branche nous avons Cheick Diabaté, qui, bien qu’ayant moins joué sur l’échantillon, marque exactement le même nombre de buts mais dispute davantage de duels aériens avec 10.2 par 90 minutes, pas étonnant pour un joueur d’1 metre 94.. Surprise, Wilfried Bony n’est pas très loin non plus mais ce dernier marque moins de buts par 90 minutes que les deux attaquants pré-cités.

Doutant fortement que l’ancien bordelais satisfasse supporters comme dirigeants, complexifions l’exercice en modifiant les critères de classification :

  • Plutôt que d’utiliser les buts par 90 minutes, je préfère regarder le taux de conversion (idéalement j’aurai regardé également les expected goals mais je n’ai pas les données). Les buts marqués dépendent fortement de l’équipe dans laquelle le joueur évolue (difficile de marquer quand on n’a jamais le ballon) et masquent le nombre de tirs tentés pour un but. En utilisant le taux de conversion et un filtre à plus de 4000 minutes j’identifie les joueurs à qui il faut beaucoup d’occasions pour marquer (coucou Bony) et me prémunis d’un joueur pour lequel l’échantillon serait trop faible et qui serait potentiellement dans une période de réussite.
  • Je garde les duels aériens, puisque c’est ce qui nous intéresse avant tout ici
  • J’ajoute les dribbles par 90 minutes
  • Pareillement avec les passes clés dans le jeu (passes qui débouchent sur un tir). Dans le jeu car je ne veux pas donner un avantage à ceux qui tirent les coups de pied arrêtés. Passes clés et non passes décisives car elles sont plus fréquentes, moins dépendantes du contexte et davantage représentatives du profil du joueur.

Avec un peu plus de données pour travailler, l’algorithme nous propose le partitionnement suivant :

dendnew2.png

Le profil qui ressort comme étant le plus proche de Giroud est celui de Sergi Enrich l’espagnol d’Eibar, qui était déjà associé à l’OM au mois d’avril et dont l’agent disait d’ailleurs qu’il ressemble beaucoup à …. Olivier Giroud.

En regardant de plus près, la ressemblance est en effet saisissante :

O. Giroud S. Enrich
Age 30 27
Minutes 7882 4746
Buts hors penalty 0.51 0.32
Tirs 3.17 1.84
Duels aériens 7.96 8.65
Dribbles 0.50 0.44
Passes clés dans le jeu 1.24 1.16
Interception + tacles 1.50 1.52
Taux de conversion 16.18% 17.52%

Ce faible volume de tir peut-il lui être imputé ou est-ce l’équipe dans laquelle il évolue qui ne produit pas de jeu ? La question est loin d’être évidente. Toujours est-il qu’Eibar n’a pas dominé les classements de tirs par match lors des deux saisons d’Enrich (14e en 2015/2016 et 9e en 2016/2017).
La différence majeure se situe au niveau des buts marqués, la raison n’étant pas un manque d’efficacité, au contraire, puisqu’on voit que le taux de conversion est marginalement meilleur pour l’espagnol, mais bien le volume de tirs.

L’Olympique de Marseille doit-elle jeter son dévolu sur l’Espagnol maintenant que nous avons identifié autant de similitudes ? L’analyse présentée n’est évidemment pas suffisante pour prendre une décision et je la vois davantage comme un premier filtre avant une étude plus approfondie. En effet, une fois que le coach a défini son identité de jeu et donc des profils pour chaque poste, il est facile d’identifier des joueurs qui pourraient facilement correspondre. Et les possibilités sont illimitées notamment en termes de filtres ou de variables selon lesquelles on veut classer les joueurs.

4. Les limites de l’exercice

  • L’exercice mené ici est, je le répète, davantage une illustration rapide qu’une étude approfondie. Il s’agit simplement de montrer comment l’outil statistique peut être utilisé facilement à des fins de recrutement.
  • Les données : la base de données ici est relativement limitée, des clubs professionnels doivent pouvoir répliquer la méthode sur un nombre bien plus important de championnats.
  • Les indicateurs : Les groupements se font en fonction de ce qu’on donne à l’ordinateur, d’où certaines paires parfois surprenantes. J’ai utilisé ici les indicateurs à ma disposition et ceux qui offraient le meilleur compromis entre simplicité et marqueurs de profils. D’autres pourraient être tout aussi pertinents voire davantage (expected goals, ballons touchés dans la surface, pertes de balle, tirs du mauvais pied etc).
  • L’interprétation du visuel : bien qu’attractifs, les arbres ne sont pas forcément intuitifs à interpréter. Par exemple la proximité verticale d’Aguero et de Mehmedi peut surprendre, d’autant plus qu’il y a des dissemblances au niveau des duels aériens et du taux de conversion. Mais il faut également regarder l’axe horizontal et la distance par rapport au nœud (la graduation en bas du schéma). On voit ainsi que la distance qui sépare Mehmedi et Aguero est bien plus importante que celle qui sépare Giroud et Enrich par exemple.

5. Méthodologie

La technique utilisée pour produire ces arbres de classification, aussi nommés dendrogramme est dite « regroupement hiérarchique » ou hierarchical clustering. Elle permet d’identifier des groupes homogènes au sein d’un ensemble de données.

La lecture se fait verticalement mais surtout horizontalement, la similarité des joueurs dépend de la distance à laquelle leurs branches se rejoignent. La proximité verticale en découle.

Ici, pour mesurer les similarités entre les joueurs j’ai utilisé la distance euclidienne, celle par défaut, n’obtenant pas de résultats plus probants via la distance Manhattan.

Pour la similarité entre partitions ou clusters, la méthode de linkage ward.D2 qui minimise la variance intra-partition a été retenue. Dans le cas présent c’est la méthode qui donnait la meilleure structure de partitionnement.

Comme d’habitude n’hésitez pas à me faire part de vos remarques ou questions via twitter.

 

Une réflexion au sujet de « Trouver rapidement une alternative à Olivier Giroud »

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s