Ma vision de l'utilisation des data dans un club de football
- Jacques Le Bescond
- 19 août 2024
- 7 min de lecture
Cet article a été écrit en 2022, depuis la data est encore plus présente et beaucoup de clubs l'ont intégrée.
Introduction/ Contexte
Parmi tous les sports, le football est très certainement le sport le plus aléatoire (ce qui assure la bonne santé des sites de pari sportif).
La principale raison :
il y a peu de buts marqués, et ils ne sont pas forcément marqués par l’équipe qui domine, il y a trop souvent un écart entre la performance et le résultat. Contrairement aux sports américains (nettement moins aléatoire) ou la formule 1 (mécanique), le monde du football a longtemps repoussé les statistiques dans la recherche de la performance en étant plutôt conservateur.
Cependant, aujourd’hui, on assiste désormais à un essor rapide de la data/donnée dans le football grâce aux évolutions technologiques et scientifiques (l’analyse vidéo intelligente au travers de la vidéo, de la reconnaissance d’image et du Big Data). En effet la vidéo est traduite en base de données. Des sociétés transforment ces vidéos en millions de données. Chaque seconde de match est traduite en informatique et les ordinateurs d’Aujourd’hui permettent des millions de calculs sur ces mêmes données. Si on compare aux premières statistiques sur le football (ex : comptage à la main), Cela constitue une avancée importante sur la profondeur de données (tous les matchs filmés…) et l’analyse. De nombreux chercheurs passionnés de football s’y intéressent (Ex : challenge polytechnique/PSG en 2018), des starts ups se créent et deviennent partenaires des plus grands clubs pour les aider à analyser leurs données.
Cet usage de la donnée est remarqué grâce aux succès récents de certains clubs qui ont eu recours aux statistiques (liverpool, brentford, brighton, leicester (lorsqu’ils ont été champion avec Mahrez et Kanté on peut s’apercevoir qu’ils avaient gardé une ossature présente depuis quelques années et ajouter quelques joueurs bien ciblés, un excellent dribbleur, un excellent récupérateur), Leipzig, Salzbourg, Midtjylland club le plus moderne du monde complètement géré par la statistique – Des analystes de Londres infuencent les choix de l’entraineur en cours de match. La donnée est très observée par la nouvelle génération d’entraineurs, notamment les jeunes entraîneurs allemands qui ont une approche très analytique (Klopp, Tuchel, Nagelsmann etc)
Monchi a récemment déclaré : Big Data is the future of football
“Big Data is the future of football. Not because you are going to buy a player based on the data, but because it reduces the risk.”
C’est effectivement la réduction des risques qui est très importante pour la bonne santé d’un club, on cherchera à prendre le meilleur joueur à moindre coût plutôt que tenter des paris coûteux (exemple : indemnités importantes et contrat long).
Pour un club, l’utilisation des données peut constituer un avantage concurrentiel sur les autres clubs.
En améliorant la qualité et la valeur de l’effectif et à terme, les résultats du club et la solidité financière en :
1- Scoutant en priorité par la data,
2- Analysant les formules gagnantes du passé,
3- Aidant les entraineurs à perfectionner les tactiques de match (plus complexe)
4- Aidant à la formation (second temps)
5- Développant une culture statistique au sein du club (staff, dirigeants et recruteurs).
Les analyses statistiques sont encore peu exploitées en France, si elles commencent à l’être dans les plus grands clubs, c’est encore un domaine tout nouveau. Il y a la possibilité de tirer parti de ce commencement notamment pour les clubs plus modestes à condition d’identifier les analyses/données qui pourront révéler un réel avantage. Mon avis est qu’Il est possible d’avoir un gain rapide grâce au data scout et l’analyse des données, je suis plus réservé sur l’analyse des matchs car il est du domaine de l’entraineur, les données sont plus complexes et les innovations des grands clubs/entraineurs sont souvent reprises par mimétisme.
Les clubs Français ne sont pas préparés à maîtriser autant d’informations. Ils auraient besoin de se structurer comme toutes les grandes entreprises.
1 - En Scoutant par la data
Ce qu’ll est possible de faire :
- Grâce à des sites de sociétés spécialisées (Opta, Wyscout, Statsbomb)
o Etablir la performance par joueur pour chaque match en confrontant les données à un site de statistiques « whoscored » ou « sofascore » (différences avec note « L’équipe » données par des journalistes)
§ Répliquer une note similaire sur tous les matchs visionnés (exemple : match de Ligue 2, national 1 ou national 2 (avant COVID) pour lesquels peu de stats sont disponibles).
Aujourd’hui, il existe de nombreux sites qui évaluent les performances des joueurs (ex : sofascore). Il est possible de regarder la performance d’un joueur sur plusieurs saisons au cas par cas, cependant, cela devient intéressant lorsqu’on peut extraire des centaines, voire des milliers de joueurs.
o Wyscout permet d’extraire jusqu’à 500 joueurs rapidement sur une période donnée, sur un championnat donné en appliquant plusieurs filtres si besoin.
o Aujourd’hui, j’ai construit des notes par poste (Latéral, DC, Milieu Déf, Milieu Off, Ailier, Attaquant) avec les notes de wyscout pour 90 minutes jouées en fonction de près de 80 indicateurs (allant du ratio buts marqués au ratio de passe réussis jusqu’aux ratio de duels aériens etc), ce travail est encore perfectible mais donne une bonne estimation de la performance du joueur avec ballon. Il serait possible d’isoler par poste plus précis (Ex : les pistons…).
§ Attention, le jeu sans ballon n’est pas quantifié mais plus tard, après quelques recherches il est possible que de nouveaux indicateurs soient trouvés, on peut imaginer par exemple la couverture du dernier défenseur qui mène à un but de l’équipe adverse. Aujourd’hui l’indicateur n’est pas présent. Dans les données, il se peut aussi qu’il y ait des problèmes de données, actions en doublons. Le statisticien doit rester vigilent sur les données et ses interprétations.
- Avantages :
o Optimisation du recrutement (de très bons joueurs à moindre coût) grâce à la data, filtre permettant de concentrer l’effort des analystes vidéo et la supervision des matchs des recruteurs sur des joueurs préalablement ciblés en partie par la data.
o Elargir les possibilités de recrutement :
Cela peut permettre de se positionner sur un joueur un peu moins connu, moins suivi pour lequel il y aura moins de concurrence. Aujourd’hui, les joueurs évoluant en France sont connus de tous les suiveurs ce qui peut rendre le recrutement plus difficile.
o Anticiper les opportunités :
Détection, ciblage rapide et anticipation pour être les premiers à contacter les joueurs, anticiper l’éclosion d’un joueur que l’on aurait pu recruter quelques mois plus tôt.
o Travailler de manière continue sur la data permet une meilleure connaissance des bases de joueurs, de la fin des contrats des joueurs et une anticipation des besoins de profil pour l’effectif des prochaines saisons.
o Recruter en post formation des joueurs acceptant le challenge de l’équipe B en espérant intégrer l’équipe première. Joueur peu coûteux avec une marge de progression. (ex : Muyumba). De nombreux joueurs se retrouvent sans 2ème contrat. Cela a permis de maintenir un niveau de performance de l’équipe b et à l’équipe d’être le plus compétitif profitant aussi aux joueurs formés au club ou au club depuis quelques années.
- Il est aussi possible de webscrapper (récupérer la donnée) certains sites pour observer des statistiques de buts ou les étoiles « Foot National » pour des championnats national 2 et 3, -19,-17. (Identification de Rayan Ghrieb en national 2)
- Avec plus de temps, il serait envisageable de créer des rapports/analyses automatisés des joueurs.
2 – En étudiant la data: Le statisticien peut:
Avec un peu plus de temps, (Ex : sur des périodes post mercato), réaliser des études sur le passé a posteriori sur les formules gagnantes (recrutement pertinent, composition de l’effectif lors de montées en division supérieure, mix jeunes joueurs/ nouveaux/ expérimentés)
Ex : Le recrutement du Havre pour remonter en Ligue 1 avec une solide défense.
Tel joueur avant d’être transféré affichait déjà ce même niveau de performances (ex : Opéri au Havre)
Extrapoler l’évolution de la performance d’un joueur sur la prochaine saison
Evaluer le niveau d’un championnat par rapport à un autre (ex : recruter un joueur du championnat belge, montée en division supérieure)
Evaluer la performance en fonction de l’âge, du nombre de matchs joués, changement de division, de niveau d’équipe, de langue etc etc
Il serait possible de créer des modèles de prédiction sur la perfomance en fonction de tous ces critères/effets.
Classer les joueurs par profil. Ex : Piston vs latéral, défenseur relanceur vs défenseur central stricte.
3 – En aidant la formation : Améliorer la performance des joueurs du club
Détection et validation des joueurs à potentiel et de la progression des joueurs par la vidéo et l’analyse des données dès 17 ans (u17)
Créer un partenariat avec une société/start up, acheter des données, avoir les compétences en interne pour les analyser.
Plutôt dans un second temps…
3 - En aidant à l’analyse des matchs
- Analyse des rapports de matchs disponibles sous wyscout
- Alimenter les discours d’avant match avec les métriques/indicateurs
- Analyse de la performance des joueurs
- Cibler les qualités/défauts de l’adversaire
- Détection de phase de jeu grâce à la donnée (plus complexe)
- Vérifier l’application des principes de jeu de l’entraîneur par les données et la statistique (plus complexe)
4 - Traitement de la donnée au sein du club
Introduire un pilotage de la performance avec des comités d’expert dirigeants/entraîneurs/ staff (reporting), instaurer une vision commune et confrontation de la statistique face aux ressentis pour améliorer/adapter/corriger le suivi.
On remarque que beaucoup de club Français démarre avec un statisticien/data-analyste.
Aujourd’hui, à ma connaissance, le traitement de la data dans le football peut a minima se faire grâce à une License de 300 euros par an avec wyscout et des logiciels gratuits d’analyse de données et de statistiques (R/Python) qui nécessite une formation en statistique et informatique (bac+5 ans) et quelques années de pratique.
Pour les clubs, il est possible aussi d’avoir des accès à Opta ou Statbomb.
Comments