Détermination du paramètre Lambda de Poisson, cas du football






Cette page est la suite d'un post déjà mis en ligne. Cliquer ici pour le revoir...

------------------------------------------------------------------------

La loi de Poisson est caractérisée par une unique constante, , un nombre réel strictement positif. Dans le contexte des résultats de football, ce paramètre pourrait être représenté par la moyenne des buts marqués (ou reçus) par une équipe sur une période donnée.

Quel autre choix faire pour une équipe de football ?

Nous allons montrer, étape par étape, comment définir ce paramètre de manière pertinente et justifiable. Il serait absurde de sélectionner directement une moyenne comme paramètre sans l'analyse et la justification par des méthodes statistiques.

Hypothèse 1 :

Pour toute équipe engagée dans un championnat organisant des matchs aller-retour, à tout moment du championnat après la cinquième journée et avant les cinq dernières journées, nous supposons que :

- X : le nombre de buts marqués à domicile,

- Y : le nombre de buts reçus à domicile,

- Z : le nombre de buts marqués à l'extérieur,

- T : le nombre de buts reçus à l'extérieur,

sont des variables aléatoires suivant une loi de Poisson.

Il est incontestable de nier le fait que le nombre des buts marqués dépend de celui des buts encaissés, et vice-versa. Aussi, la rigueur nous oblige-t-il à formuler une nouvelle hypothèse.

Hypothèse 2 :

Pour toute équipe, sous l’hypothèse 1, les quatre variables X, Y, Z et T sont dépendantes les unes des autres. Autrement dit, chaque variable dépend des trois autres. Par conséquent, les quatre paramètres associés sont intrinsèquement liés et ne peuvent être déterminés chacun séparément des trois autres.

Cette interdépendance peut être modélisée statistiquement à travers une analyse multivariée, où les interactions entre les variables sont prises en compte pour estimer les paramètres .

En partant du principe que rien ne dure et que tout peut changer, il serait impertinent de considérer pour une équipe donnée tout son passé et son palmarès de résultats, aussi glorieux soit-il, comme il serait imprudent de se suffire d’un nombre réduit de données retenues. D’ailleurs, l’effectif de chaque équipe est quasi-constant sauf éventuels petits changements. D’où l’on admettra l’hypothèse suivante:

Hypothèse 3 :

Pour toute équipe, et sous les deux premières hypothèses, seul l’état de forme récente compte pour approcher les valeurs des quatre paramètres de X, Y, Z et T.

Cette hypothèse se justifie par le fait que l'état de forme récent est souvent un indicateur plus fiable des performances actuelles de l'équipe, prenant en compte les dynamiques actuelles, les blessures, les changements de stratégie, et d'autres facteurs contextuels.

Mais toute équipe n’a pas joué, pendant un intervalle donné du championnat contre les mêmes équipes. Les résultats réalisés par chaque équipe dépendent donc de la valeur des équipes adverses contre qui elle a joué. Une autre précaution à prendre en rassemblant les données brutes sans les avoir “ajustées” au préalable. D’où :

Hypothèse 4 :

Les dernières performances enregistrées par chaque équipe dépendent de la valeur footballistique du groupe d’équipes adverses récemment rencontrées.

La variabilité des adversaires rencontrés par chaque équipe doit être prise en compte pour obtenir des estimations justes et fiables des paramètres.

Voici quelques techniques statistiques qui peuvent aider à ajuster les données en fonction de la valeur des équipes adverses :

1. Modèles de régression pondérée,

2. Facteurs de force des adversaires,

3. Modèles hiérarchiques,

4. Analyse par intervalles,

5. Modèles de Poisson généralisés avec covariables,

6. Méthodes de lissage.

Certainement, en utilisant ces techniques, nous arriverons à ajuster les données brutes de manière appropriée et obtenir des estimations plus précises et fiables des paramètres, en tenant compte de la variabilité des adversaires rencontrés par chaque équipe.

Seulement, dans un souci de simplicité et pour éviter de compliquer la tâche, notre préférence se focalise sur la technique d’ajustement des données par la régression linéaire multiple. Et grâce à une translation à “zéro” de la valeur des équipes adverses rencontrées, après avoir appliqué tous les ajustements obtenus pour chaque variable X, Y, Z et T, nous pourrons atténuer l’effet de la diversité des niveaux des groupes d’équipes rencontrées. Nous détaillerons cette petite astuce au moment opportun.

Après avoir pris en compte toutes ces considérations, nous introduisons dans la section suivante la régression linéaire multiple, en se concentrant exclusivement sur son application théorique aux quatre variables aléatoires X, Y, Z et T.

Conclusion :

En explorant les différentes hypothèses et techniques d'ajustement, nous avons établi une approche rigoureuse pour déterminer le paramètre dans le contexte de la loi de Poisson appliquée aux résultats de football. En tenant compte des interdépendances entre les variables, de l'état de forme récent des équipes et de la valeur des adversaires rencontrés, nous pouvons obtenir des estimations plus précises et pertinentes. Pour simplifier le processus, nous nous concentrerons sur la régression linéaire multiple, une méthode robuste permettant d'ajuster les données de manière efficace tout en atténuant l'effet des niveaux variés des équipes adverses. Dans la section suivante, nous aborderons en détail la régression linéaire multiple et son application aux variables X, Y, Z et T.

-------------------------------------


Pour pouvoir lire l'article intégral présentant cette modélisation dont fait partie cette section, télécharger le document au format PDF



Page Précédente                                    Page suivante


-------------------------------------

À suivre...

Vos retours sont de plus en plus demandés pour m'inciter à continuer la rédaction d'un article sur ce thème et à le publier en ligne au format PDF, accompagné d'une feuille de calcul pour estimer les probabilités selon différents systèmes de prédiction des résultats de fin de match de football, pour chaque championnat ou tournoi..


Commentaires