In recent years, the widespread adoption of digital devices in all aspects of everyday life has led to new research opportunities in the field of Human-Computer Interaction. In the automotive field, where infotainment systems are becoming more and more important to the final user, the availability of inexpensive miniaturized cameras has enabled the development of vision-based Natural User Interfaces, paving the way for novel approaches to the Human-Vehicle Interaction. In this thesis, we investigate computer vision techniques, based on both visible light and non-visible spectrum, that can form the foundation of the next generation of in-vehicle infotainment systems. As sensing technology, we focus on infrared-based devices, such as depth and thermal cameras. They provide reliable data under different illumination conditions, making them a good fit for the mutable automotive environment. Using these acquisition devices, we collect two novel datasets: a facial dataset, to investigate the impact of sensor resolution and quality in changing acquisition settings, and a dataset of dynamic hand gestures, collected with several synchronized sensors within a car simulator. As vision approaches, we adopt state-of-the-art deep learning techniques, focusing on efficient neural networks that can be easily deployed on computing devices on the edge. In this context, we study several computer vision tasks to cover the majority of human-car interactions. First, we investigate the usage of depth cameras for the face recognition task, focusing on how depth-map representations and deep neural models affect the recognition performance. Secondly, we address the problem of in-car dynamic hand gesture recognition in real-time, using depth and infrared sensors. Then, we focus on the analysis of the human body, both in terms of the 3D human pose estimation and the contact-free estimation of anthropometric measurements. Finally, focusing on the area surrounding the vehicle, we explore the 3D reconstruction of objects from 2D images, as a first step towards the 3D visualization of the external environment from controllable viewpoints.

Negli ultimi anni, la diffusione di dispositivi digitali in ogni aspetto della vita quotidiana ha portato a nuove opportunità nel campo dell’Interazione Uomo-Macchina. Nel campo automobilistico, dove i sistemi di infotainment sono sempre più importanti per gli utenti finali, la disponibilità di telecamere economiche e miniaturizzate ha permesso lo sviluppo di interfacce utente naturali basate sulla visione artificiale, aprendo a nuove opportunità nell’Interazione Uomo-Veicolo. In questa tesi, si propone uno studio di tecniche di visione artificiale, basate sia su luce visibile che sullo spettro non visibile, che possano formare la base per la prossima generazione di sistemi di infotainment. Come tecnologie di acquisizione, il focus è posto su dispositivi basati su luce infrarossa, come camere termiche e di profondità. Queste tipologie di sensori forniscono dati affidabili in numerose condizioni di illuminazione per cui sono particolarmente adatte al dinamico ambiente automobilistico. Usando questi dispositivi, sono acquisiti due dataset: un dataset di volti, per valutare l’impatto di qualità e risoluzione dei sensori in configurazioni di acquisizione variabile, e un dataset di gesti dinamici della mano, acquisito in un simulatore di auto con molteplici sensori sincronizzati fra loro. Come approcci di visione artificiale, si sceglie di utilizzare tecniche di deep learning stato dell’arte, focalizzandosi su reti neurali efficienti che possano essere utilizzate su dispositivi integrati a basso consumo. In questo contesto, sono esaminati diversi problemi di visione artificiale, con l’obiettivo di coprire la maggior parte delle interazioni uomo-macchina. Innanzitutto, si analizza l’utilizzo di camere di profondità per il riconoscimento facciale, focalizzandosi sull’impatto che la rappresentazione dei dati di profondità e il tipo di architettura neurale utilizzata hanno sulle capacità di riconoscimento. Inoltre, si studia il riconoscimento di gesti dinamici della mano in tempo reale, utilizzando sensori infrarosso e di profondità. Si analizza anche il corpo umano nella sua interezza, in termini di riconoscimento della postura 3D e di stima senza contatto di misure antropometriche. Infine, focalizzandosi sull’area circostante il veicolo, si affronta la ricostruzione 3D di oggetti da immagini 2D, come primo passo verso una visualizzazione 3D navigabile dell’ambiente esterno.

Tecniche di Visione Artificiale per l'Interazione Uomo-Veicolo / Stefano Pini , 2022 Mar 25. 34. ciclo, Anno Accademico 2020/2021.

Tecniche di Visione Artificiale per l'Interazione Uomo-Veicolo

PINI, STEFANO
2022

Abstract

In recent years, the widespread adoption of digital devices in all aspects of everyday life has led to new research opportunities in the field of Human-Computer Interaction. In the automotive field, where infotainment systems are becoming more and more important to the final user, the availability of inexpensive miniaturized cameras has enabled the development of vision-based Natural User Interfaces, paving the way for novel approaches to the Human-Vehicle Interaction. In this thesis, we investigate computer vision techniques, based on both visible light and non-visible spectrum, that can form the foundation of the next generation of in-vehicle infotainment systems. As sensing technology, we focus on infrared-based devices, such as depth and thermal cameras. They provide reliable data under different illumination conditions, making them a good fit for the mutable automotive environment. Using these acquisition devices, we collect two novel datasets: a facial dataset, to investigate the impact of sensor resolution and quality in changing acquisition settings, and a dataset of dynamic hand gestures, collected with several synchronized sensors within a car simulator. As vision approaches, we adopt state-of-the-art deep learning techniques, focusing on efficient neural networks that can be easily deployed on computing devices on the edge. In this context, we study several computer vision tasks to cover the majority of human-car interactions. First, we investigate the usage of depth cameras for the face recognition task, focusing on how depth-map representations and deep neural models affect the recognition performance. Secondly, we address the problem of in-car dynamic hand gesture recognition in real-time, using depth and infrared sensors. Then, we focus on the analysis of the human body, both in terms of the 3D human pose estimation and the contact-free estimation of anthropometric measurements. Finally, focusing on the area surrounding the vehicle, we explore the 3D reconstruction of objects from 2D images, as a first step towards the 3D visualization of the external environment from controllable viewpoints.
Vision-based Human-Vehicle Interaction
25-mar-2022
VEZZANI, Roberto
CUCCHIARA, Rita
File in questo prodotto:
File Dimensione Formato  
phd_thesis_pini_stefano_revised.pdf

Open access

Descrizione: Tesi definitiva Pini Stefano
Tipologia: Tesi di dottorato
Dimensione 17.43 MB
Formato Adobe PDF
17.43 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1271181
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact