DATA-DRIVEN MODELING FOR COMPLEX SYSTEMS ANALYSIS

Zeziola, Roberta

L’apprendimento statistico svolge un ruolo importante in molte aree della scienza, della finanza e dell’industria. Il suo ruolo nell'ambito della modellistica è quello di fornire un senso all’enorme quantità di dati che si generano in svariati campi, dalla biologia alla medicina, all’economia, alla fisica. L'analisi formale connessa a molti problemi di gestione e controllo dei fenomeni di qualità dell'aria solitamente implica l'assunto che i sistemi avranno sempre una dinamica lineare anziché non lineare, deterministica anziché stocastica e stazionaria anziché non stazionaria. Tuttavia, la consapevolezza delle implicazioni del cambiamento graduale a lungo termine in molti fenomeni ambientali, ecologici, energetici ed economici è spesso imperfetta e deve essere approfondita. Un ruolo particolarmente importante in questo contesto è svolto dalla modellazione data-driven, che permette di rappresentare le relazioni tra i dati sulla base della misurazione di variabili di causa (input) ed effetto (output). Lo scopo di questo lavoro è definire un framework metodologico/modellistico che consenta la descrizione di fenomeni complessi attraverso modelli data-driven/statistici. Questa ricerca è stata focalizzata sullo sviluppo di applicazioni in MATLAB che aiutano il monitoraggio e la previsione dei livelli di inquinanti e variabili atmosferiche, ma l'approccio è sufficientemente generale per essere utilizzato in qualsiasi contesto in cui le dinamiche non lineari non siano trascurabili e la definizione di modelli deterministici è una strada che non può essere seguita. Sebbene negli ultimi decenni siano stati compiuti importanti progressi nella qualità dell'aria in Europa, l'inquinamento atmosferico è ancora ogni anno responsabile di morti premature. Mentre in passato i superamenti della qualità dell'aria erano diffusi in tutto il continente europeo, negli ultimi anni tendono a essere limitati a specifiche aree densamente popolate come la Pianura Padana per il particolato fine. La capacità di modellare e prevedere accuratamente le concentrazioni di inquinanti nell'ambiente è un punto chiave per un'efficace gestione della qualità dell'aria e lo sviluppo di politiche. Esistono vari approcci statistici per modellare i livelli di inquinanti atmosferici. In questo studio vengono valutate diverse tecniche, tra cui metodi non lineari e di apprendimento automatico, per il monitoraggio e la previsione delle concentrazioni di inquinanti nella città di Milano e in tutta la regione Lombardia (Italia). In particolare, i modelli presentati sono Support Vector Machines (SVM), Gaussian Regression Process (GPR), Wavenet (WT), Regression Tree di cui in particolare metodi d'insieme come Random Forest e Bagging ed infine l'insieme di questi modelli. I diversi modelli sono applicati a due diversi casi di studio implementati utilizzando parametri meteorologici e specie chimiche misurate dal 2014 al 2020. Per confrontare le prestazioni predittive dei modelli e del loro insieme, vengono calcolate diverse metriche statistiche, tra cui l'errore quadratico medio della radice (RMSE), l'errore quadratico medio normalizzato (NRMSE) e la correlazione. Il lavoro di tesi è strutturato come segue: \begin{itemize} \item Il capitolo 1 presenta la Metodologia come le descrizioni dei modelli che vengono implementati e applicati nei diversi casi di studio. \item Il Capitolo 2 presenta l'applicazione della diversa metodologia all'implementazione di un sensore virtuale basato sui dati per il monitoraggio degli ossidi di azoto. \item Il Capitolo 3 presenta l'applicazione del framework ad una serie di problemi legati alla previsione della qualità dell'aria. \end{itemize}

Modeling and statistical analysis play a very important role in many areas of science, helping to make sense of the huge amount of data in various fields, from biology to medicine, from economics to physics. The formal analysis connected to many problems of management and control of air quality phenomena usually implies the assumption that the systems will always have a linear rather than non-linear dynamic, deterministic rather than stochastic, and stationary rather than non-stationary way. However, awareness of the implications of long-term gradual change in many environmental, ecological, energy, and economic phenomena is often imperfect and needs to be deeply investigated. A particularly important role in this context is played by data-driven modeling, which allows representing the relationships between data based on measurement of cause (input) and effect (output) variables. This work aims to define a methodological/modeling framework that would allow the description of complex phenomena through data-driven/statistical models. This research was focused on the development of applications in MATLAB helping the monitoring and forecasting of pollutants levels and atmospheric variables, but the approach is general enough to be used in any context where the nonlinear dynamics are not-negligible and the definition of deterministic models is a path that cannot be followed. Although major progress has been made in air quality in Europe in recent decades, air pollution is still responsible for premature deaths each year. While in the past air quality exceedances were widespread across the European continent, in recent years they tend to be limited to specific densely populated areas such as the Po Valley for fine particulate matter. The ability to accurately model and predict ambient pollutant concentrations is a key point for effective air quality management and policy development. Various statistical approaches exist to model air pollutant levels. In this study, different techniques, including nonlinear and machine learning methods, are evaluated for the monitoring and forecasting of pollutant concentrations in the city of Milan and the whole Lombardy region (Italy). In particular, the presented models are Support Vector Machines (SVM), Gaussian Regression Process (GPR), Wavenet (WT), Regression Tree of which in particular ensemble methods such as Random Forest and Bagging and finally the ensemble of these models. The different models are applied to two different case studies implemented using meteorological parameters and measured chemical species from 2014-to 2020. Several statistical metrics, including Root, mean squared error (RMSE), Normalized root mean squared error (NRMSE), and correlation are calculated to compare the predictive performance of the models and their ensemble. The thesis work is structured as follows: \begin{itemize} \item Chapter 1 presents the Methodology such as the descriptions of the models that are implemented and applied in the different case studies. \item Chapter 2 presents the application of the different methodology to the implementation of a data-driven virtual sensor for nitrogen oxides monitoring. \item Chapter 3 presents the application of the framework to a set of problems related to air quality forecasting. \end{itemize}

DATA-DRIVEN MODELING FOR COMPLEX SYSTEMS ANALYSIS / Zeziola, Roberta. - (2022 Jul 08).