Machine learning and digitization tools are exponentially increasing in these last years and their applications are reflected in different areas of our life: in particular, this thesis aims to focus on football (i.e. soccer for Americans), the most practised sport in the world. Due to needing of professional teams, analytics tools in football are becoming a crucial point, in order to help technical staff, scouting and clubs management in policy evaluation and to optimize strategic decisions; for this reason, different statistical applications have been developed, one for each chapter, corresponding to published or submitted scientific articles. In the first part are presented the main activities I attended during my PhD, then the first chapter is dedicated to literature review, by an original bibliometric analysis relying football analytics development in the decade 2010-2020. The following chapter is designated for in-depth the Partial Least Squares Structural Equation Modeling (PLS-SEM) framework, in order to study and create some original composite indicators for players performance using data provided by Electronic Arts (EA) experts and available on the Kaggle data science platform; in particular, a Third-Order PLS-PM approach was adopted on the sofifa Key Performance Indices, in order to compute a composite indicator differentiated by role. In the next chapter the PLS-SEM model has been refined and validated, applying both Confirmatory Tetrad Analysis (CTA) and Confirmatory Composite Analysis (CCA), using EA \emph{sofifa} data relying the most recent football season (2021/2022); the final results underline how some sub-areas of performance have different significance weights depending on the player's role; as concurrent and predictive analysis, the new Player Indicator (PI) overall was compared with a benchmark (the EA overall) and with some performance quality proxies, such as players' market value and wage, showing interesting and consistent relations. At this point, these original composite indicators have been introduced as regressors in the last chapter for improving in terms of prediction performance the expected goal (xG) model; it is one emerging tool in the field of football analytics, that aims to predict goal and measure the quality of each shot, by applying a supervised machine learning approach (logit model) on different scenarios for sample balanced techniques. In particular, some performance composite indicators obtained by the PLS-SEM and some original tracking variables are significant for the classification model, contributing to increase the goal prediction probability, compared with a benchmark.
Gli strumenti di digitalizzazione e di machine learning hanno avuto una crescita esponenziale nel corso degli ultimi anni e tutto ciò ha riguardato di riflesso i più svariati settori della nostra vita: in particolar modo, questa tesi ha l'obiettivo di focalizzarsi sulla sport analytics, in particolare sul calcio, lo sport più praticato al mondo. A causa della crescente necessità dei club professionistici, gli strumenti analitici nel calcio stanno diventando uno snodo cruciale per aiutare gli staff tecnici, le aree scouting e i management nell'ottimizzare e nel prendere decisioni; per questa ragione, in questa tesi sono state sviluppate diverse applicazioni statistiche, una per ogni capitolo, ognuna corrispondente ad un articolo scientifico pubblicato o in revisione da parte di una rivista scientifica. Nell'introduzione della tesi sono elencate le principali attività svolte durante il periodo di dottorato, seguite dal primo capitolo dedicato alla revisione della letteratura, effettuato in forma analitica grazie ad un originale analisi bibliometrica sugli ultimi 10 anni di produzione scientifica. Il secondo capitolo è dedicato ad un approfondimento metodologico sul Partial Least Squares Structural Equation Modeling (PLS-SEM), metodologia statistica utilizzata per la creazione di indicatori compositi volti ad analizzare la performance dei giocatori, tramite l'utilizzo di dati forniti dagli esperti di Electronic Arts (EA) e disponibili sulla piattaforma di data science Kaggle; nella seconda parte del capitolo è presente l'applicazione sviluppata, in particolare un modello gerarchico del terzo ordine utilizzando i Key Performance Indices di sofifa per calcolare un indicatore composito differenziato per ogni ruolo. Nel terzo capitolo il modello sviluppato nel capitolo precedente è stato rifinito e validato per ogni ruolo, applicando una Confirmatory Tetrad Analysis (CTA) e una Confirmatory Composite Analysis (CCA), utilizzando i dati relativi ai più recenti campionati (stagione 2021/2022); i risultati ottenuti sottolineano come le diverse aree e sottoaree di performance hanno diversi pesi e valori a seconda del ruolo del giocatore. Infine, con lo scopo di valutare la validità predittiva del modello, il nuovo indicatore composito (PI) overall è stato confrontato con un benchmark (EA overall) e con delle variabili proxy come il valore di mercato e l'ingaggio dei giocatori, ottenendo dei risultati interessanti e significativi. A questo punto, nell'ultimo capitolo gli indicatori compositi sviluppati in precedenza sono stati introdotti come regressori nel modello di expected goal (xG), con lo scopo di migliorarne l'accuratezza predittiva. Il modello xG è infatti uno dei modelli emergenti nel mondo della football analytics e ha lo scopo di prevedere i goal e misurarne la qualità. Per fare questo è stato applicato un modello logistico classico ed un modello logistico aggiustato su diversi scenari per campioni bilanciati. Nella fattispece, alcuni indicatori compositi e altri nuovi regressori (variabili di tracking) sono risultati significativi per il modello di classificazione, contribuendo a migliorare l'accuratezza nella predizione dei goal, confrontandolo con un benchmark.
STATISTICAL METHODS AND TOOLS FOR FOOTBALL ANALYTICS / Cefis, Mattia. - (2023 Jan 23).
STATISTICAL METHODS AND TOOLS FOR FOOTBALL ANALYTICS
CEFIS, MATTIA
2023-01-23
Abstract
Machine learning and digitization tools are exponentially increasing in these last years and their applications are reflected in different areas of our life: in particular, this thesis aims to focus on football (i.e. soccer for Americans), the most practised sport in the world. Due to needing of professional teams, analytics tools in football are becoming a crucial point, in order to help technical staff, scouting and clubs management in policy evaluation and to optimize strategic decisions; for this reason, different statistical applications have been developed, one for each chapter, corresponding to published or submitted scientific articles. In the first part are presented the main activities I attended during my PhD, then the first chapter is dedicated to literature review, by an original bibliometric analysis relying football analytics development in the decade 2010-2020. The following chapter is designated for in-depth the Partial Least Squares Structural Equation Modeling (PLS-SEM) framework, in order to study and create some original composite indicators for players performance using data provided by Electronic Arts (EA) experts and available on the Kaggle data science platform; in particular, a Third-Order PLS-PM approach was adopted on the sofifa Key Performance Indices, in order to compute a composite indicator differentiated by role. In the next chapter the PLS-SEM model has been refined and validated, applying both Confirmatory Tetrad Analysis (CTA) and Confirmatory Composite Analysis (CCA), using EA \emph{sofifa} data relying the most recent football season (2021/2022); the final results underline how some sub-areas of performance have different significance weights depending on the player's role; as concurrent and predictive analysis, the new Player Indicator (PI) overall was compared with a benchmark (the EA overall) and with some performance quality proxies, such as players' market value and wage, showing interesting and consistent relations. At this point, these original composite indicators have been introduced as regressors in the last chapter for improving in terms of prediction performance the expected goal (xG) model; it is one emerging tool in the field of football analytics, that aims to predict goal and measure the quality of each shot, by applying a supervised machine learning approach (logit model) on different scenarios for sample balanced techniques. In particular, some performance composite indicators obtained by the PLS-SEM and some original tracking variables are significant for the classification model, contributing to increase the goal prediction probability, compared with a benchmark.File | Dimensione | Formato | |
---|---|---|---|
Tesi_CefisMattia_pdfA1b.pdf
accesso aperto
Descrizione: TESI FINALE DI DOTTORATO
Tipologia:
Tesi di dottorato
Dimensione
4.9 MB
Formato
Adobe PDF
|
4.9 MB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.