This thesis contributes to the field of Embodied Artificial Intelligence. Embodied AI is a novel research topic at the intersection of Computer Vision and Robotics and takes advantage of recent findings on Deep Neural Networks. Empowered by the so-called "deep revolution", we strive to create intelligent agents able to: perceive the world, reason about Spatio-temporal relationships, and act to reach a pre-defined goal. First, we need to identify a proper strategy to tackle such a complex topic, which entails time series and long-term dependencies on one end and multiple input modalities on the other end. We distinguish three different problems we need to address to build an intelligent agent. We start from the problem of long-term dependencies and sequence modeling, as the agent needs to process data coming from a sequence of time steps acting as previous experience. Then, we consider and tackle a first simple form of interaction with an unknown environment: exploration. In this way, we combine visual and spatial reasoning to perform simple actions such as in-place rotations and moving forward. Finally, we study how to incorporate natural language instructions to guide the agent's navigation towards a goal. Language then becomes a natural interface to communicate with the agent, paving the way to future research and applications. This thesis presents a step-by-step analysis of these features that any intelligent agent should possess. While doing so, we cover a comprehensive overview of the field, theoretical foundations for Embodied AI, state-of-the-art datasets and benchmarks, and practical indications regarding the deployment of the resulting agent in the real world. In the first part of this thesis, we discuss Recurrent Neural Networks (RNNs). RNNs are the most common approach when dealing with time series. IN particular, Long Short-Term Memory (LSTM) is the standard de-facto for many tasks involving sequential inputs and long-term dependencies. As such, they represent an enabling technology for Embodied AI. We introduce a heuristic enhancement of LSTM that brings better results, increased training stability, and reduced convergence time on a set of tasks. In the following, we place the agent in a simulated photorealistic unknown environment. We aim to explore the largest portion of the environment new scene in a fixed amount of time. To that end, we propose two different training setups. The first approach relies on curiosity, where the agent tries to maximize its surprisal during the exploration episode. The second strategy promotes actions likely to produce a high impact (i.e., visual changes) on the environment. We show that exploration is an essential ability of embodied agents and that it can enable a series of downstream tasks such as scene description and coordinate-driven navigation in unknown environments. Then we tackle the recent task of Vision-and-Language Navigation (VLN). In VLN, the agent needs to follow a language-specified instruction to reach a target location in a new environment. With that in mind, we propose two different methods to fuse lingual and visual information: one based on dynamic convolutional filters and the other based on attention. This way, we show that it is possible to include natural language instructions from a human user in the agent reasoning motor. Hence, we enable a series of future research directions and applications. As a final contribution, we discuss how to deploy agents trained in simulation in the real world. While most of our experiments exploit simulation, we show that it is possible to deploy the resulting models on a Low-Cost Robot (LoCoBot) with little effort.
Questa tesi contribuisce al campo dell'Intelligenza Artificiale Incorporata (Embodied AI). L'Embodied AI è un nuovo argomento di ricerca all'intersezione tra visione artificiale e robotica e sfrutta le recenti scoperte sulle reti neurali. Il nostro obiettivo è quello di creare agenti intelligenti in grado di: percepire il mondo, ragionare sulle relazioni spazio-temporali e agire per raggiungere un obiettivo predefinito. Per affrontare questo problema, identifichiamo una strategia adeguata a questo argomento complesso, che comporta la gestione da un lato di serie temporali e dipendenze a lungo termine, e dall’altro di input provenienti da diversi domini. Distinguiamo tre diversi problemi che dobbiamo affrontare per costruire un agente intelligente. Partiamo dal problema delle dipendenze a lungo termine e della modellazione della sequenza, in quanto l'agente ha bisogno di elaborare i dati provenienti da una serie di passaggi temporali che fungono da esperienza precedente. Quindi, consideriamo e affrontiamo una prima semplice forma di interazione con un ambiente sconosciuto: l'esplorazione. In questo modo, combiniamo il ragionamento visivo e spaziale eseguire semplici azioni. Infine, studiamo come incorporare istruzioni in linguaggio naturale per guidare la navigazione dell'agente verso un obiettivo. Il linguaggio diventa quindi un'interfaccia naturale per comunicare con l'agente, aprendo le porte a ricerche e applicazioni future. In questa tesi presentiamo un'analisi di queste caratteristiche che ogni agente intelligente dovrebbe possedere. Nel fare ciò, proponiamo una panoramica completa del campo dell’Embodied AI, i suoi fondamenti teorici, i dataset e i benchmark stato dell’arte e alcune indicazioni pratiche relative all'implementazione dell'agente risultante nel mondo reale. Nella prima parte di questa tesi, vengono discusse le Reti Neurali Ricorrenti (RNN), la tecnologia più comune per modellare serie temporali, e in particolare la Long Short-Term Memory (LSTM): lo standard di fatto per molti problemi che coinvolgono input sequenziali e dipendenze a lungo termine. In quanto tali, rappresentano una tecnologia abilitante per l'Embodied AI. Introduciamo un miglioramento euristico nella LSTM che porta a risultati migliori, maggiore stabilità durante il training e tempi di convergenza ridotti su una serie di problemi. A seguire, collochiamo l'agente in un ambiente fotorealistico simulato. Il nostro obiettivo è esplorare più area possibile in questo nuovo ambiente in un intervallo di tempo prefissato. A tal fine, proponiamo due diverse configurazioni di training: un primo approccio basato sulla curiosità, in cui l'agente cerca di massimizzare la sua sorpresa durante l'episodio di esplorazione, e una seconda strategia basata sull'impatto dell'azione dell'agente sull'ambiente. Mostriamo che l'esplorazione è un'abilità essenziale per un agente e che può abilitare una serie di capacità più specializzate come descrivere una scena o navigare verso coordinate relative in ambienti sconosciuti. Quindi affrontiamo il recente compito della navigazione visuale guidata da linguaggio (VLN). In questo caso, l'agente deve seguire un'istruzione testuale per raggiungere la sua destinazione in un ambiente completamente nuovo. Con questo in mente, proponiamo due diversi metodi per fondere le informazioni linguali e visive: uno basato su filtri convolutivi dinamici e l'altro basato su attenzione. In questo modo, mostriamo che è possibile includere istruzioni in linguaggio naturale provenienti da un utente umano nel motore di ragionamento dell'agente. Questa possibilità apre poi le porte una serie di future direzioni di ricerca e applicazioni. Come contributo finale, discutiamo come portare agenti addestrati alla simulazione nel mondo reale. Mentre la maggior parte dei nostri esperimenti sfrutta la simulazione, mostriamo che è possibile utilizzare i modelli risultanti su un Low-Cost Robot (LoCoBot) con pochi accorgimenti.
Percepire, Ragionare, Agire: la Nuova Frontiera dell’Embodied AI / Federico Landi , 2022 Mar 25. 34. ciclo, Anno Accademico 2020/2021.
Percepire, Ragionare, Agire: la Nuova Frontiera dell’Embodied AI
LANDI, FEDERICO
2022
Abstract
This thesis contributes to the field of Embodied Artificial Intelligence. Embodied AI is a novel research topic at the intersection of Computer Vision and Robotics and takes advantage of recent findings on Deep Neural Networks. Empowered by the so-called "deep revolution", we strive to create intelligent agents able to: perceive the world, reason about Spatio-temporal relationships, and act to reach a pre-defined goal. First, we need to identify a proper strategy to tackle such a complex topic, which entails time series and long-term dependencies on one end and multiple input modalities on the other end. We distinguish three different problems we need to address to build an intelligent agent. We start from the problem of long-term dependencies and sequence modeling, as the agent needs to process data coming from a sequence of time steps acting as previous experience. Then, we consider and tackle a first simple form of interaction with an unknown environment: exploration. In this way, we combine visual and spatial reasoning to perform simple actions such as in-place rotations and moving forward. Finally, we study how to incorporate natural language instructions to guide the agent's navigation towards a goal. Language then becomes a natural interface to communicate with the agent, paving the way to future research and applications. This thesis presents a step-by-step analysis of these features that any intelligent agent should possess. While doing so, we cover a comprehensive overview of the field, theoretical foundations for Embodied AI, state-of-the-art datasets and benchmarks, and practical indications regarding the deployment of the resulting agent in the real world. In the first part of this thesis, we discuss Recurrent Neural Networks (RNNs). RNNs are the most common approach when dealing with time series. IN particular, Long Short-Term Memory (LSTM) is the standard de-facto for many tasks involving sequential inputs and long-term dependencies. As such, they represent an enabling technology for Embodied AI. We introduce a heuristic enhancement of LSTM that brings better results, increased training stability, and reduced convergence time on a set of tasks. In the following, we place the agent in a simulated photorealistic unknown environment. We aim to explore the largest portion of the environment new scene in a fixed amount of time. To that end, we propose two different training setups. The first approach relies on curiosity, where the agent tries to maximize its surprisal during the exploration episode. The second strategy promotes actions likely to produce a high impact (i.e., visual changes) on the environment. We show that exploration is an essential ability of embodied agents and that it can enable a series of downstream tasks such as scene description and coordinate-driven navigation in unknown environments. Then we tackle the recent task of Vision-and-Language Navigation (VLN). In VLN, the agent needs to follow a language-specified instruction to reach a target location in a new environment. With that in mind, we propose two different methods to fuse lingual and visual information: one based on dynamic convolutional filters and the other based on attention. This way, we show that it is possible to include natural language instructions from a human user in the agent reasoning motor. Hence, we enable a series of future research directions and applications. As a final contribution, we discuss how to deploy agents trained in simulation in the real world. While most of our experiments exploit simulation, we show that it is possible to deploy the resulting models on a Low-Cost Robot (LoCoBot) with little effort.File | Dimensione | Formato | |
---|---|---|---|
Thesis_Landi_Revised.pdf
Open access
Descrizione: Tesi definitiva Landi Federico
Tipologia:
Tesi di dottorato
Dimensione
6.24 MB
Formato
Adobe PDF
|
6.24 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris