Deep learning has transformed how we tackle complex tasks, but challenges persist, particularly in the areas of lifelong learning and generating reliable predictions in dynamic environments. This thesis investigates advanced discretization techniques aimed at addressing two crucial domains: Continual Learning (CL) and trajectory forecasting. Both present distinct challenges related to managing latent spaces and ensuring long-term adaptability. Discretization techniques play a pivotal role in handling graph structures and latent space quantization. They simplify the management of complex, continuous data by structuring it in a more analyzable and model-friendly format. In graph structures, discretization helps capture relationships between entities, making these connections more interpretable and manageable. Latent space discretization, on the other hand, transforms continuous latent variables into discrete ones, improving the interpretability and efficiency of machine learning models. This is particularly advantageous in tasks like clustering, representation learning, and generative modeling, where clear, discrete categories within latent space allow models to generalize more effectively and produce more robust predictions. In the first part, this thesis investigates the problem of catastrophic forgetting in Artificial Neural Networks (ANNs) during Continual Learning. Unlike biological intelligence, which integrates new knowledge throughout life without losing prior understanding, ANNs struggle when faced with a non-static training data distribution. CaSpeR-IL is introduced as a geometric regularizer that enhances the stability of rehearsal-based CL methods by enforcing spectral constraints on the latent space. Specifically, it mitigates the disruption caused by class interference during data replay, promoting a better partitioning of the latent space. This approach improves the state-of-the-art performance of CL models on standard benchmarks by maintaining more consistent predictions, even under memory constraints. In the second part, the thesis addresses the challenge of trajectory forecasting, a key component in fields like video surveillance and sports analytics. Forecasting the future movements of agents, such as basketball players interacting in real-time, requires a deep understanding of their intentions. Here, Vector Quantized Variational Autoencoders (VQ-VAEs) are exploited, utilizing a discrete latent space to prevent posterior collapse while capturing diverse future trajectories. The thesis proposes a novel adaptation mechanism through low-rank updates to the latent codebook, enabling instance-based customization of latent representations. This ensures that past motion patterns and contextual information dynamically shape the latent space, leading to more accurate and diverse trajectory predictions. It is empirically demonstrated that combining this approach with a diffusion-based predictive model achieves state-of-the-art performance on multiple trajectory forecasting benchmarks. This work comprehensively studies discretization techniques in deep learning, showcasing their power in solving continual learning and trajectory forecasting challenges through geometric and latent space regularization strategies.
Il deep learning ha trasformato il modo in cui affrontiamo compiti complessi, ma rimangono delle sfide, in particolare nell'apprendimento continuo e nella generazione di previsioni affidabili in ambienti dinamici. Questa tesi esplora tecniche avanzate di discretizzazione mirate ad affrontare due ambiti cruciali: il Continual Learning (CL) e la previsione di traiettorie di essere umani. Entrambi presentano sfide uniche legate alla gestione degli spazi latenti e alla capacità di adattamento a lungo termine. Le tecniche di discretizzazione svolgono un ruolo fondamentale nella gestione delle strutture di grafi e nella quantizzazione degli spazi latenti. Queste semplificano la gestione di dati complessi e continui strutturandoli in un formato più analizzabile e adatto alla modellazione. Nelle strutture a grafo, la discretizzazione aiuta a catturare le relazioni tra le entità, rendendo tali connessioni più interpretabili e gestibili. La discretizzazione dello spazio latente, invece, trasforma le variabili latenti continue in discrete, migliorando l'interpretabilità e l'efficienza dei modelli di machine learning. Ciò è particolarmente vantaggioso in compiti come il clustering, l'apprendimento delle rappresentazioni e la modellazione generativa, dove categorie chiare e discrete all'interno dello spazio latente permettono ai modelli di generalizzare meglio e produrre previsioni più robuste. Nella prima parte, la tesi indaga il problema del "catastrophic forgetting" nelle reti neurali artificiali (ANN) nel contesto del Continual Learning. A differenza delle connessioni bioligiche degli essere viventi, che integrano nuove conoscenze senza perdere quelle precedenti, le ANN faticano quando affrontano una distribuzione dei dati di addestramento non statica. Viene presentato CaSpeR-IL, un regolarizzatore geometrico che migliora la stabilità dei metodi di CL basati sul "rehearsal", imponendo vincoli spettrali sullo spazio latente. In particolare, Casper-IL mitiga l'interferenza tra classi durante la riproduzione dei dati, promuovendo un miglior partizionamento dello spazio latente. Questo approccio migliora le prestazioni di modelli "State Of The Art" di CL nei benchmark standard, mantenendo previsioni più consistenti anche con vincoli di memoria. Nella seconda parte, la tesi affronta la sfida della previsione delle traiettorie di pedoni, un aspetto chiave in campi come la videosorveglianza e l'analisi sportiva. Prevedere i movimenti futuri di agenti, come i giocatori di basket che interagiscono in tempo reale, richiede una profonda comprensione delle loro intenzioni. In questo caso, sono stati sfruttati i Vector Quantized Variational Autoencoders (VQ-VAE), che utilizzano uno spazio latente discreto per evitare il collasso della posterior (tipico dei VAE), catturando traiettorie future diversificate. La tesi propone un nuovo meccanismo di adattamento tramite aggiornamenti a bassa dimensionalità del codebook latente, permettendo una personalizzazione delle rappresentazioni latenti basata sui singoli casi. Ciò garantisce che i modelli di movimento passati e le informazioni contestuali modellino dinamicamente lo spazio latente, portando a previsioni più accurate e diversificate. Inoltre, viene mostrato come, combinando questo approccio con un diffusion model per la previsione dei codici discreti (output del processo di quantizzazione), si ottengono prestazioni SOTA su diversi benchmark di previsione delle traiettorie. Questo lavoro studia in modo completo le tecniche di discretizzazione nel deep learning, dimostrando la loro efficacia nel risolvere le sfide del Continual Learning e della previsione di traiettorie tramite strategie di regolarizzazione geometrica e dello spazio latente.
Tecniche Avanzate di Discretizzazione nell'Era del Deep Learning / Riccardo Benaglia , 2025 Apr 03. 37. ciclo, Anno Accademico 2023/2024.
Tecniche Avanzate di Discretizzazione nell'Era del Deep Learning
BENAGLIA, RICCARDO
2025
Abstract
Deep learning has transformed how we tackle complex tasks, but challenges persist, particularly in the areas of lifelong learning and generating reliable predictions in dynamic environments. This thesis investigates advanced discretization techniques aimed at addressing two crucial domains: Continual Learning (CL) and trajectory forecasting. Both present distinct challenges related to managing latent spaces and ensuring long-term adaptability. Discretization techniques play a pivotal role in handling graph structures and latent space quantization. They simplify the management of complex, continuous data by structuring it in a more analyzable and model-friendly format. In graph structures, discretization helps capture relationships between entities, making these connections more interpretable and manageable. Latent space discretization, on the other hand, transforms continuous latent variables into discrete ones, improving the interpretability and efficiency of machine learning models. This is particularly advantageous in tasks like clustering, representation learning, and generative modeling, where clear, discrete categories within latent space allow models to generalize more effectively and produce more robust predictions. In the first part, this thesis investigates the problem of catastrophic forgetting in Artificial Neural Networks (ANNs) during Continual Learning. Unlike biological intelligence, which integrates new knowledge throughout life without losing prior understanding, ANNs struggle when faced with a non-static training data distribution. CaSpeR-IL is introduced as a geometric regularizer that enhances the stability of rehearsal-based CL methods by enforcing spectral constraints on the latent space. Specifically, it mitigates the disruption caused by class interference during data replay, promoting a better partitioning of the latent space. This approach improves the state-of-the-art performance of CL models on standard benchmarks by maintaining more consistent predictions, even under memory constraints. In the second part, the thesis addresses the challenge of trajectory forecasting, a key component in fields like video surveillance and sports analytics. Forecasting the future movements of agents, such as basketball players interacting in real-time, requires a deep understanding of their intentions. Here, Vector Quantized Variational Autoencoders (VQ-VAEs) are exploited, utilizing a discrete latent space to prevent posterior collapse while capturing diverse future trajectories. The thesis proposes a novel adaptation mechanism through low-rank updates to the latent codebook, enabling instance-based customization of latent representations. This ensures that past motion patterns and contextual information dynamically shape the latent space, leading to more accurate and diverse trajectory predictions. It is empirically demonstrated that combining this approach with a diffusion-based predictive model achieves state-of-the-art performance on multiple trajectory forecasting benchmarks. This work comprehensively studies discretization techniques in deep learning, showcasing their power in solving continual learning and trajectory forecasting challenges through geometric and latent space regularization strategies.File | Dimensione | Formato | |
---|---|---|---|
BENAGLIA_IND.pdf
Open access
Descrizione: Tesi definitiva Riccardo Benaglia
Tipologia:
Tesi di dottorato
Dimensione
4.54 MB
Formato
Adobe PDF
|
4.54 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris