Attention mechanism and Transformer-based architectures have recently revolutionized the artificial intelligence landscape in almost every field. Ever since their first introduction, they have become ubiquitous components of any deep learning breakthrough, from Natural Language Processing to Computer Vision and Bioinformatics. This boils down mainly to their superior abilities in dealing with long-range interactions across data. In this thesis, we investigate the frontier of Transformer-based architectures at the intersection of Vision and Language, where machines are required to replicate the human ability to semantically connect different domains. In the first part, we present state-of-the-art solutions for the image captioning task, which consist of automatically describing images with natural language sentences, from the understanding of the visual content, objects and their interactions, to the creation of a syntactically and semantically correct sentence. We first discuss a thorough literature survey in the deep learning era, and we propose a novel image captioning model among the firsts embracing self-attention in place of recurrent networks. Experimentally, our architecture reaches a new state of the art, achieving the first place of the public leaderboard on the most important captioning benchmark. Further, we explore new training strategies proposing a method based on the interplay between two distinct language models, using the mean teacher paradigm and knowledge distillation, providing state-of-the-art caption quality with a reduced number of parameters. Despite the remarkable results obtained by captioning models, switching to real-life scenarios constitutes a challenge due to the larger variety of visual concepts not covered in existing datasets. For this reason, we propose a novel approach for novel object captioning, that learns to select the most relevant objects of an image, regardless of their presence in the training set, and constrains the generative process accordingly. In the following, we present solutions for cross-modal retrieval, another task related to vision and language that consists of finding images corresponding to a given textual query and, vice versa, retrieving texts which describe a given query image. Since both images and texts are usually encoded as sets or sequences of elements, we propose an attentive reduction method that transforms a set of elements into a single response, leading to a performance increase. Moreover, we propose an efficient Transformer architecture to fill in the gap between effectiveness and efficiency by learning a shared embedding space and distilling fine-grained scores previously aligned. Our approach competes with state-of-the-art large models while being almost 90 times faster. Switching to more complex and challenging scenarios, we also investigate visual-semantic models in the artistic and digital humanities domain. To this aim, we propose a cross-modal retrieval method that also identifies if sentences describe the visual content or the context of a painting and a visual-semantic embedding that can automatically align illustrations and texts without paired supervision. Finally, we expand the scope of attentive models to the language of life: the genetic code. We propose a new class of deep learning models based on the Perceiver architecture, built upon Transformer, which leverages asymmetric attention and can scale to longer sequences. We present a model able to predict the gene expression (mRNA level) given its DNA sequence, and a model for the first time predicting the protein expression given its amino-acid sequence. We demonstrate the effectiveness of our methods and promising future opportunities.

Il meccanismo di attenzione e le architetture basate su Transformer hanno recentemente rivoluzionato il panorama dell'intelligenza artificiale in quasi tutti i campi. Sin dalla loro prima introduzione, sono diventati componenti onnipresenti di qualsiasi innovazione nel deep learning, dal Natural Language Processing alla Computer Vision e Bioinformatica. Ciò è dovuto principalmente alle loro superiori capacità nel comprendere le interazioni a lungo raggio tra i dati. In questa tesi, indaghiamo la frontiera delle architetture Transformer all'intersezione tra la Visione e il Linguaggio, dove ad un computer viene richiesto di replicare la capacità umana di connettere semanticamente diversi domini. Nella prima parte presentiamo soluzioni all'avanguardia nel task di image captioning, che consiste nel descrivere automaticamente le immagini con frasi in linguaggio naturale, dalla comprensione del contenuto visivo, oggetti e loro interazioni, alla creazione di frasi semanticamente corrette. In primo luogo, discutiamo una approfondita analisi della letteratura nell'era del deep learning e proponiamo un nuovo modello di image captioning tra i primi ad utilizzare l'attenzione al posto di reti ricorrenti. Sperimentalmente, la nostra architettura raggiunge un nuovo stato dell'arte, ottenendo il primo posto nella classifica pubblica del più importante benchmark di captioning. Inoltre, esploriamo nuove strategie di training proponendo un metodo basato sull'interazione tra due language model distinti, utilizzando il paradigma del mean teacher learning e knowledge distillation, ottenendo una qualità stato dell’arte con un numero ridotto di parametri. Nonostante i notevoli risultati ottenuti da questi modelli, il passaggio a scenari di vita reale costituisce una sfida a causa della più ampia varietà di concetti visivi non coperti nei dataset esistenti. Per questo motivo, proponiamo un nuovo approccio per novel object captioning, che impara a selezionare gli oggetti più rilevanti di un'immagine, indipendentemente dalla loro presenza nel training set, e vincola di conseguenza il processo generativo. Di seguito, presentiamo soluzioni per il cross-modal retrieval, un altro task in ambito visione e linguaggio che consiste nel trovare immagini corrispondenti a una determinata query testuale e, viceversa, recuperare testi che descrivono una determinata immagine di query. Poiché sia le immagini che i testi sono solitamente codificati come insiemi o sequenze di elementi, proponiamo un metodo attentivo di riduzione che trasforma un insieme di elementi in un'unica risposta, portando ad un aumento delle prestazioni. Inoltre, proponiamo un'architettura Transformer efficiente per colmare il divario tra efficacia ed efficienza, imparando uno spazio di embedding condiviso tramite distillation di scores precedentemente allineati. Il nostro approccio compete con i modelli di grandi dimensioni pur essendo quasi 90 volte più veloce. Passando a scenari più complessi, indaghiamo anche modelli visuali-semantici nel dominio delle discipline umanistiche artistiche e digitali. A tal fine, proponiamo un modello di cross-modal retrieval che identifica anche se le frasi descrivono il contenuto visivo o il contesto di un dipinto e un modello visuale-semantico che allinea automaticamente illustrazioni e testi senza supervisione accoppiata. Infine, allarghiamo l'ambito di modelli attentivi al linguaggio della vita: il codice genetico. Proponiamo una nuova classe di modelli di deep learning basati sull'architettura Perceiver, basato su Transformer, che sfrutta l'attenzione asimmetrica e scala a sequenze più lunghe. Presentiamo un modello in grado di predire l'espressione genica (livello di mRNA) dalla sua sequenza di DNA, e per la prima volta un modello che prevede l'espressione della proteina dalla sua sequenza di amminoacidi. Dimostriamo l'efficacia dei nostri metodi e le promettenti opportunità future.

Trasformare Visione e Linguaggio con Attenzione / Matteo Stefanini , 2023 Mar 08. 35. ciclo, Anno Accademico 2021/2022.

Trasformare Visione e Linguaggio con Attenzione

STEFANINI, MATTEO
2023

Abstract

Attention mechanism and Transformer-based architectures have recently revolutionized the artificial intelligence landscape in almost every field. Ever since their first introduction, they have become ubiquitous components of any deep learning breakthrough, from Natural Language Processing to Computer Vision and Bioinformatics. This boils down mainly to their superior abilities in dealing with long-range interactions across data. In this thesis, we investigate the frontier of Transformer-based architectures at the intersection of Vision and Language, where machines are required to replicate the human ability to semantically connect different domains. In the first part, we present state-of-the-art solutions for the image captioning task, which consist of automatically describing images with natural language sentences, from the understanding of the visual content, objects and their interactions, to the creation of a syntactically and semantically correct sentence. We first discuss a thorough literature survey in the deep learning era, and we propose a novel image captioning model among the firsts embracing self-attention in place of recurrent networks. Experimentally, our architecture reaches a new state of the art, achieving the first place of the public leaderboard on the most important captioning benchmark. Further, we explore new training strategies proposing a method based on the interplay between two distinct language models, using the mean teacher paradigm and knowledge distillation, providing state-of-the-art caption quality with a reduced number of parameters. Despite the remarkable results obtained by captioning models, switching to real-life scenarios constitutes a challenge due to the larger variety of visual concepts not covered in existing datasets. For this reason, we propose a novel approach for novel object captioning, that learns to select the most relevant objects of an image, regardless of their presence in the training set, and constrains the generative process accordingly. In the following, we present solutions for cross-modal retrieval, another task related to vision and language that consists of finding images corresponding to a given textual query and, vice versa, retrieving texts which describe a given query image. Since both images and texts are usually encoded as sets or sequences of elements, we propose an attentive reduction method that transforms a set of elements into a single response, leading to a performance increase. Moreover, we propose an efficient Transformer architecture to fill in the gap between effectiveness and efficiency by learning a shared embedding space and distilling fine-grained scores previously aligned. Our approach competes with state-of-the-art large models while being almost 90 times faster. Switching to more complex and challenging scenarios, we also investigate visual-semantic models in the artistic and digital humanities domain. To this aim, we propose a cross-modal retrieval method that also identifies if sentences describe the visual content or the context of a painting and a visual-semantic embedding that can automatically align illustrations and texts without paired supervision. Finally, we expand the scope of attentive models to the language of life: the genetic code. We propose a new class of deep learning models based on the Perceiver architecture, built upon Transformer, which leverages asymmetric attention and can scale to longer sequences. We present a model able to predict the gene expression (mRNA level) given its DNA sequence, and a model for the first time predicting the protein expression given its amino-acid sequence. We demonstrate the effectiveness of our methods and promising future opportunities.
Transforming Vision and Language with Attention
8-mar-2023
CUCCHIARA, Rita
File in questo prodotto:
File Dimensione Formato  
PhD_Thesis_Matteo_Stefanini_Final.pdf

Open access

Descrizione: Tesi definitiva Stefanini Matteo
Tipologia: Tesi di dottorato
Dimensione 10.38 MB
Formato Adobe PDF
10.38 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1300333
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact