Artificial Neural Networks (ANNs) have been established as the centrepiece of contemporary Artificial Intelligence, steadily raising the bar for what can be accomplished by computer programs thanks to their effectiveness and versatility. While they shine especially for their capability for generalisation, these systems impose the strict requirement that their training procedure should insist on independent and identically distributed data. In contrast with human intelligence - which seamlessly allows us to acquire knowledge continuously - ANNs forget previously acquired knowledge catastrophically whenever their training data distribution changes over time. Such a fundamental limitation prevents the development of intelligent systems capable of quick adaptation, crucially tying model updates to a cumbersome offline retraining procedure. Continual Learning (CL) is a rapidly growing area of machine learning whose aim is counteracting the catastrophic forgetting phenomenon in ANNs through purposefully designed approaches. Among these, a prominent role is played by Rehearsal-Based Methods (RBM), which operate by storing few pieces of previously encountered data for later re-use, thus striking a favourable balance between efficacy and efficiency. This thesis encompasses the contributions to CL made by the candidate during his doctoral studies. Starting from a review of recent literature, it highlights the relevance of RBMs and shows that the decades-old Experience Replay baseline is competitive with current state-of-the-art approaches when carefully trained. Subsequently, this manuscript focuses on the proposal of novel RBMs, which expand on the basic replay formula by leveraging knowledge distillation ([X-]DER), implicit dynamic adaptation of network capacity (LiDER) and geometric regularisation of the model's latent space (CaSpeR). Extensive experimental analyses highlight the merits of the proposed approaches, shedding light on the specific properties they confer on the in-training model. Finally, this thesis investigates the applicability of RBMs beyond the typical incremental classification setting. Namely, a novel CL experimental scenario is introduced to provide more realistic evaluations w.r.t. common benchmarks in literature, an investigation is presented concerning the viability of CL when limited supervision is available, a thorough study is conducted on the interplay between pre-training and CL. As a result, architectures and best practices are introduced that bridge the gap between standard CL evaluations and real-world applications.

Le reti neurali artificiali (Artificial Neural Networks - ANN) hanno acquisito un ruolo di massimo rilievo nel contesto delle applicazioni contemporanee di Intelligenza Artificiale, portando ad un incremento costante delle potenzialità dei programmi informatici grazie alla loro efficacia e versatilità. Benché eccellenti nella loro capacità di generalizzazione, queste richiedono strettamente che il loro addestramento sfrutti dati indipendenti e identicamente distribuiti. Mentre l'intelligenza umana permette naturalmente di acquisire nuovi concetti in maniera incrementale, le ANN dimenticano la conoscenza pregressa in modo catastrofico ogniqualvolta intervenga una variazione nella distribuzione dei dati di addestramento. Questa limitazione fondamentale impedisce lo sviluppo di sistemi intelligenti capaci di adattarsi rapidamente al contesto in cui operano e vincola l'aggiornamento dei modelli a onerose procedure di riaddestramento. L'apprendimento continuo (Continual Learning - CL) è una branca in rapido sviluppo del machine learning che si prefigge come obiettivo lo sviluppo di architetture volte a compensare la dimenticanza catastrofica nelle ANN. Tra le soluzioni proposte, un ruolo di primaria importanza è rivestito dai metodi rehearsal (Rehearsal-Based Methods - RBM), che evitano la necessità di riaddestramento mediante l'immagazzinamento e il riutilizzo una modica quantità di dati pregressi, individuando così un compromesso ottimale tra efficacia e efficienza. Questa tesi raccoglie i contributi scientifici nell'ambito del CL prodotti dal candidato nel corso delle sue attività di dottorato. Inizialmente, si presenta un esame della letteratura recente, evidenziando la rilevanza degli RBM e mostrando che il noto approccio Experience Replay - proposto per la prima volta negli anni '90 - resta competitivo rispetto allo stato dell'arte quando si assumono opportuni accorgimenti operativi. Successivamente, il lavoro si focalizza sulla proposta di nuovi RBM che sfruttano i principi di distillazione di conoscenza ([X-]DER), adattamento dinamico implicito della capacità del modello (LiDER) e regolarizzazione geometrica dello spazio latente del modello (CaSpeR). Gli approcci proposti sono convalidati mediante estese analisi sperimentali, volte anche a mettere in risalto le specifiche proprietà da essi conferite al modello. La parte finale di questa tesi presenta analisi dell'applicabilità di RBM a scenari che superano il tipico assetto sperimentale di classificazione incrementale: un nuovo esperimento volto a perseguire una modellazione più realistica dei cambi di distribuzione nei dati di ingresso, uno studio sulla applicabilità di CL in regime di supervisione limitata e una analisi sull'interazione tra CL e il pre-addestramento. Questi studi portano allo sviluppo di architetture e prassi operative volte a colmare il divario tra la letteratura e la applicazione di sistemi CL ad applicazioni realistiche.

Apprendimento Continuo mediante Metodi Rehearsal / Matteo Boschini , 2023 Mar 08. 35. ciclo, Anno Accademico 2021/2022.

Apprendimento Continuo mediante Metodi Rehearsal

BOSCHINI, MATTEO
2023

Abstract

Artificial Neural Networks (ANNs) have been established as the centrepiece of contemporary Artificial Intelligence, steadily raising the bar for what can be accomplished by computer programs thanks to their effectiveness and versatility. While they shine especially for their capability for generalisation, these systems impose the strict requirement that their training procedure should insist on independent and identically distributed data. In contrast with human intelligence - which seamlessly allows us to acquire knowledge continuously - ANNs forget previously acquired knowledge catastrophically whenever their training data distribution changes over time. Such a fundamental limitation prevents the development of intelligent systems capable of quick adaptation, crucially tying model updates to a cumbersome offline retraining procedure. Continual Learning (CL) is a rapidly growing area of machine learning whose aim is counteracting the catastrophic forgetting phenomenon in ANNs through purposefully designed approaches. Among these, a prominent role is played by Rehearsal-Based Methods (RBM), which operate by storing few pieces of previously encountered data for later re-use, thus striking a favourable balance between efficacy and efficiency. This thesis encompasses the contributions to CL made by the candidate during his doctoral studies. Starting from a review of recent literature, it highlights the relevance of RBMs and shows that the decades-old Experience Replay baseline is competitive with current state-of-the-art approaches when carefully trained. Subsequently, this manuscript focuses on the proposal of novel RBMs, which expand on the basic replay formula by leveraging knowledge distillation ([X-]DER), implicit dynamic adaptation of network capacity (LiDER) and geometric regularisation of the model's latent space (CaSpeR). Extensive experimental analyses highlight the merits of the proposed approaches, shedding light on the specific properties they confer on the in-training model. Finally, this thesis investigates the applicability of RBMs beyond the typical incremental classification setting. Namely, a novel CL experimental scenario is introduced to provide more realistic evaluations w.r.t. common benchmarks in literature, an investigation is presented concerning the viability of CL when limited supervision is available, a thorough study is conducted on the interplay between pre-training and CL. As a result, architectures and best practices are introduced that bridge the gap between standard CL evaluations and real-world applications.
Rehearsal-Based Methods for Continual Learning
8-mar-2023
CALDERARA, Simone
File in questo prodotto:
File Dimensione Formato  
phd_thesis_matteo_boschini.pdf

Open access

Descrizione: Tesi definitiva Boschini Matteo
Tipologia: Tesi di dottorato
Dimensione 15.12 MB
Formato Adobe PDF
15.12 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1300322
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact