Sequence analysis is fundamental for comprehending intricate patterns and phenomena in various fields. The thesis explores the complexities of sequence data, particularly focusing on two distinct types: textual data through entity matching (EM) and time series data through clustering and novelty detection approaches. We begin by addressing the challenges in EM, proposing solutions that simplify the intricate training and tuning processes via AutoML, enhance model interpretability, and analyze the complexities of transformer architectures like BERT within EM contexts. Our contributions also include an innovative interpretability method and an unsupervised measure for evaluating data integration efficacy by enhancing the accessibility of EM systems. Diving into time series analysis, we introduce a system for clustering multivariate time series that emphasizes interpretability without compromising accuracy. Furthermore, we present a systematic study of autoencoder-based methods for novelty detection in Predictive Maintenance, demonstrating their worth in industrial settings. A unique aspect of this work includes the practical application of these methods in the financial sector through my startup, which integrates AI technologies for enhanced financial analysis and decision-making. This thesis advances the sequence data analysis field and demonstrates the real-world impact of industry applications.

L'analisi di sequenze riveste un ruolo cruciale nel riconoscimento di pattern e nella comprensione di fenomeni in svariati ambiti disciplinari. Questa tesi di ricerca si focalizza sull'analisi dei dati sequenziali, esplorando due tipologie di dati: testuali, attraverso la sfida del problema di Entity Matching (EM), e serie temporali, proponendo nuove soluzioni di clustering e di rilevamento di eventi. Il problema di EM consiste nel determinare se una coppia di descrizioni testuali si riferisca alla stessa entità nel mondo reale. Affrontando le sfide più critiche in questo ambito, abbiamo proposto soluzioni innovative che includono la semplificazione del training e del tuning attraverso l'AutoML, il miglioramento dell'interpretazione dei modelli EM e un'analisi approfondita della complessità di architetture transformer come BERT. Abbiamo inoltre sviluppato un metodo di valutazione non supervisionata per l'integrazione dei dati, rendendo il processo più intuitivo. Nel dominio dell'analisi delle serie temporali, abbiamo proposto un sistema per il clustering di serie temporali multivariate che garantisce interpretabilità e accuratezza. Per quanto riguarda la manutenzione predittiva in contesti industriali, la ricerca ha portato allo sviluppo di un approfondimento sugli autoencoder per il rilevamento di eventi, superando i benchmark esistenti. In ultima analisi, verranno esplorate implementazioni pratiche di tali metodologie nel settore finanziario, con l’obiettivo incorporare tecnologie di intelligenza artificiale al fine di migliorare l'analisi finanziaria e il processo decisionale.

Analisi di Dati Sequenziali: Metodologie e Applicazioni nell'Entity Matching e nelle Serie Temporali / Francesco Del Buono , 2024 Apr 11. 36. ciclo, Anno Accademico 2022/2023.

Analisi di Dati Sequenziali: Metodologie e Applicazioni nell'Entity Matching e nelle Serie Temporali

DEL BUONO, FRANCESCO
2024

Abstract

Sequence analysis is fundamental for comprehending intricate patterns and phenomena in various fields. The thesis explores the complexities of sequence data, particularly focusing on two distinct types: textual data through entity matching (EM) and time series data through clustering and novelty detection approaches. We begin by addressing the challenges in EM, proposing solutions that simplify the intricate training and tuning processes via AutoML, enhance model interpretability, and analyze the complexities of transformer architectures like BERT within EM contexts. Our contributions also include an innovative interpretability method and an unsupervised measure for evaluating data integration efficacy by enhancing the accessibility of EM systems. Diving into time series analysis, we introduce a system for clustering multivariate time series that emphasizes interpretability without compromising accuracy. Furthermore, we present a systematic study of autoencoder-based methods for novelty detection in Predictive Maintenance, demonstrating their worth in industrial settings. A unique aspect of this work includes the practical application of these methods in the financial sector through my startup, which integrates AI technologies for enhanced financial analysis and decision-making. This thesis advances the sequence data analysis field and demonstrates the real-world impact of industry applications.
Advancing Sequence Analysis: A Dual Perspective on Entity Matching and Time Series
11-apr-2024
GUERRA, Francesco
File in questo prodotto:
File Dimensione Formato  
PhD_Thesis_FrancescoDelBuono_XXXVI_final_version.pdf

embargo fino al 11/04/2025

Descrizione: Tesi definitiva Del Buono Francesco
Tipologia: Tesi di dottorato
Dimensione 6.55 MB
Formato Adobe PDF
6.55 MB Adobe PDF   Visualizza/Apri   Richiedi una copia
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1340166
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact