One of the goals of the Computer Vision community is to comprehend human 3D perception through 2D representations like images and videos. Extracting robust 3D insights from these analyses is a significant challenge. This dissertation focuses on the keypoint-based 3D representation, exploring applications in different real-world scenarios. Unlike traditional pointwise feature descriptors like ORB or SIFT, semantic keypoints establish correlations between specific 3D points belonging to a rigid or articulated object. Recent advances in Deep Learning, particularly in 2D keypoints detection, have paved the way for addressing complex 3D vision problem. This thesis demonstrates the application of these methods in autonomous driving and video surveillance, showcasing their robustness and precision in bridging the gap between 2D image planes and the 3D world. In the automotive context, our investigation centers on the tasks of novel view synthesis and 3D reconstruction of vehicles within urban scenes. A 3D representation of a vehicle in a scene can be valuable for traffic analysis and accident prevention. To achieve this, we design a method leveraging a 2D keypoint localization network to augment visual features for accurate classification of 3D vehicle models. Ensuring a robust classification, we study how to improve the generation of synthetic vehicles from unseen novel views through a deep learning pipeline trained on a collection of single-view images. Additionally, to explore more sophisticated techniques for 3D object reconstruction from images, we introduce a deep learning architecture capable of reconstructing objects across multiple categories. This approach is trained on a dataset of single-view images and involves the deformation of explicit 3D representations. The second research area is focused on predicting the 3D skeletons of both humans and robots, observed from an external perspective, such as a video surveillance camera. The keypoints in this context are integrated into the definition of a skeleton, depicted as a graph of semantic points. Our initial focus is on the robotics domain, where an intelligent system for predicting 3D skeletons can be crucial for safety in collaborative environments shared by humans and robots. Given the challenges of obtaining real datasets in robotics, we emphasize the role of simulation. Our approach involves collecting a synthetic and real dataset, addressing the 3D pose estimation task through a double heatmap-based representation. We explore the domain gap between the synthetic and real data, utilizing depth maps to enhance accuracy. Introducing temporal cues, our pipeline embraces the novel Pose Nowcasting paradigm, where predicting future poses serves as an auxiliary task to refine current pose precision. Shifting to the human scenario, we propose a pose refinement framework based on depth map analysis. Simultaneously, our investigation extends to Human-Computer Interaction, where we present an unsupervised method for detecting and classifying dynamic hand gestures using data from a motion tracking sensor. This thesis seeks to make a valuable contribution to the intersection of 3D Computer Vision and Deep Learning across various domains. Following an overview of the existing state-of-the-art in 3D reconstruction and 3D pose estimation tasks, we present our proposed methods with a comprehensive technical explanation supported by a detailed experimental investigation conducted on benchmark datasets widely acknowledged in the literature.

Uno degli obiettivi della Computer Vision è quello di comprendere la percezione 3D umana attraverso rappresentazioni 2D come immagini e video. Estrarre informazioni 3D robuste da quest’analisi è una sfida significativa. Questa tesi si concentra su rappresentazioni 3D basate su punti chiave, esplorando applicazioni in differenti scenari reali. Differentemente dai tradizionali descrittori puntuali come ORB o SIFT, i punti chiave semantici stabiliscono correlazioni tra specifici punti 3D appartenenti a oggetti rigidi o articolati. I recenti sviluppi in Deep Learning, in particolar modo nel rilevamento di punti chiave 2D, hanno aperto la strada per affrontare problemi complessi di visione 3D. Questa tesi dimostra l’applicazione di questi metodi nella guida autonoma e nella videosorveglianza, evidenziando la robustezza e la precisione nel ridurre il divario tra il piano immagine 2D e il mondo 3D. Nel conteso automotive, la nostro indagine si concentra sui problemi di sintetizzazione di nuove viste e di ricostruzione 3D di veicoli in ambienti urbani. La rappresentazione 3D di un veicolo in una scena può essere utile per l’analisi del traffico e la prevenzione di incidenti. Perciò, progettiamo un metodo che sfrutta la localizzazione di punti chiave 2D in modo da aumentare le caratteristiche visuali per l’accurata classificazione di modelli 3D di veicoli. Assicurando una classificazione robusta, studiamo come migliorare la generazione di veicoli sintetici da punti di vista non visti attraverso un sistema di Deep Learning trainato su un insieme di immagini da singoli punti di vista. In aggiunta, per esplorare tecniche più sofisticate di ricostruzione 3D di oggetti da immagini, introduciamo un’architettura di Deep Learning capace di ricostruire oggetti di diverse categorie. Questo approccio è allenato su un insieme di immagini da singoli punti di vista e comporta la deformazione di rappresentazioni 3D esplicite. La seconda area di ricerca si concentra sulla predizione di scheletri 3D di persone e robot osservati da una prospettiva esterna come le camere di videosorveglianza. I punti chiave in questo contesto sono integrati nella definizione di scheletro rappresentato come un grafo di punti semantici. Il focus iniziale è sul dominio robotico dove un sistema intelligente che predice scheletri 3D può essere cruciale per la sicurezza in ambienti collaborativi condivisi da persone e robot. Considerando le difficoltà nell’ottenere dataset reali in robotica, enfatizziamo il ruolo della simulazione. Il nostro approccio comporta la raccolta di un dataset sintetico e reale, affrontando il problema della stima della posa 3D attraverso una rappresentazione a due mappe di calore. Esploriamo il divario tra il dominio sintetico e reale utilizzando le mappe di profondità per aumentare l’accuratezza. Introducendo informazioni temporali, il nostro sistema sposa il nuovo paradigma di Pose Nowcasting, in cui predire le pose future rappresenta un problema ausiliario per raffinare la precisione della posa corrente. Passando allo scenario umano, proponiamo un sistema di raffinamento della posa basato sull’analisi di mappe di profondità. Contemporaneamente, la nostra indagine si estende all’interazione uomo-computer, in cui presentiamo un metodo non supervisionato per rilevare e classificare gesti delle mani dinamici usando dati di un sensore che traccia il movimento. Questa tesi punta a dare un valido contributo all’intersezione tra la 3D Computer Vision e il Deep Learning in vari domini. Dopo uno sguardo sullo stato dell’arte esistente sui problemi di ricostruzione 3D e stima della posa 3D, presentiamo i nostri metodi con una spiegazione tecnica esaustiva supportata da indagini dettagliate dei risultati condotte su dataset ampiamente riconosciuti in letteratura.

Dalle immagini allo spazio 3D: il ruolo dei punti chiave semantici per la percezione 3D / Alessandro Simoni , 2024 Apr 11. 36. ciclo, Anno Accademico 2022/2023.

Dalle immagini allo spazio 3D: il ruolo dei punti chiave semantici per la percezione 3D

SIMONI, ALESSANDRO
2024

Abstract

One of the goals of the Computer Vision community is to comprehend human 3D perception through 2D representations like images and videos. Extracting robust 3D insights from these analyses is a significant challenge. This dissertation focuses on the keypoint-based 3D representation, exploring applications in different real-world scenarios. Unlike traditional pointwise feature descriptors like ORB or SIFT, semantic keypoints establish correlations between specific 3D points belonging to a rigid or articulated object. Recent advances in Deep Learning, particularly in 2D keypoints detection, have paved the way for addressing complex 3D vision problem. This thesis demonstrates the application of these methods in autonomous driving and video surveillance, showcasing their robustness and precision in bridging the gap between 2D image planes and the 3D world. In the automotive context, our investigation centers on the tasks of novel view synthesis and 3D reconstruction of vehicles within urban scenes. A 3D representation of a vehicle in a scene can be valuable for traffic analysis and accident prevention. To achieve this, we design a method leveraging a 2D keypoint localization network to augment visual features for accurate classification of 3D vehicle models. Ensuring a robust classification, we study how to improve the generation of synthetic vehicles from unseen novel views through a deep learning pipeline trained on a collection of single-view images. Additionally, to explore more sophisticated techniques for 3D object reconstruction from images, we introduce a deep learning architecture capable of reconstructing objects across multiple categories. This approach is trained on a dataset of single-view images and involves the deformation of explicit 3D representations. The second research area is focused on predicting the 3D skeletons of both humans and robots, observed from an external perspective, such as a video surveillance camera. The keypoints in this context are integrated into the definition of a skeleton, depicted as a graph of semantic points. Our initial focus is on the robotics domain, where an intelligent system for predicting 3D skeletons can be crucial for safety in collaborative environments shared by humans and robots. Given the challenges of obtaining real datasets in robotics, we emphasize the role of simulation. Our approach involves collecting a synthetic and real dataset, addressing the 3D pose estimation task through a double heatmap-based representation. We explore the domain gap between the synthetic and real data, utilizing depth maps to enhance accuracy. Introducing temporal cues, our pipeline embraces the novel Pose Nowcasting paradigm, where predicting future poses serves as an auxiliary task to refine current pose precision. Shifting to the human scenario, we propose a pose refinement framework based on depth map analysis. Simultaneously, our investigation extends to Human-Computer Interaction, where we present an unsupervised method for detecting and classifying dynamic hand gestures using data from a motion tracking sensor. This thesis seeks to make a valuable contribution to the intersection of 3D Computer Vision and Deep Learning across various domains. Following an overview of the existing state-of-the-art in 3D reconstruction and 3D pose estimation tasks, we present our proposed methods with a comprehensive technical explanation supported by a detailed experimental investigation conducted on benchmark datasets widely acknowledged in the literature.
From Images to 3D Space: The Role of Semantic Keypoints for 3D Perception
11-apr-2024
VEZZANI, Roberto
File in questo prodotto:
File Dimensione Formato  
PhD_Thesis_Alessandro_Simoni.pdf

Open access

Descrizione: "Tesi definitiva" Simoni Alessandro
Tipologia: Tesi di dottorato
Dimensione 23.77 MB
Formato Adobe PDF
23.77 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1340180
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact