The number of interconnected devices is growing rapidly around us. According to a recent Gartner report, 20.4 billion of connected “things” are expected to be in use by the end of 2020. Cities make no exception. As most of the world population is congregating in urban areas, the sector of smart mobility is growing rapidly and has become a strong driving force towards this direction. Vehicles in the first place are mutating into sophisticated data crunchers, featuring a wide range of sensors that enable increasing perception capabilities. Cameras constitute a large slice of these devices. In vehicles, inwards facing cameras allow to monitor the state of the driver and passengers, while multiple cameras pointing outwards are devoted to the understanding of the surrounding scene. At the same time, a massive number of infrastructure cameras are being installed around the cities with applications to surveillance, traffic flow monitoring, prediction plate recognition among others. In this frame, this thesis investigates how multiple visual viewpoints on the same urban scene can be put in relation to each other and how novel viewpoints can be generated. We start from the study of the driver's point of view. To this end, we collect and make publicly available a novel dataset called DR(eye)VE, composed of more than 500,000 frames of driving sequences containing drivers' gaze fixations and their temporal integration providing task-specific saliency maps. On this dataset we perform in-depth analysis of driver's attentional patterns on real-world data. Eventually, we build upon these findings to engineer and design the first deep learning based computational model of human attention during the driving task. We then research if it is possible to learn a mapping between the aforementioned first person viewpoint and other views of the scene, e.g. a bird's eye view. As collecting real-world data for this purpose would be unfeasible, we record and release a photorealistic synthetic dataset featuring 1M couples of frames, taken from both car dashboard and bird’s eye view. On these data we show that a deep convolutional network can indeed be trained to infer the bird's eye spatial occupancy of the scene starting from raw detections on the first person view. Exploring a different path towards the same goal, we introduce a two-branched convolutional encoder network based on differentiable rendering that jointly estimates the vehicle category and its 6-DoF pose in the scene. Once the category and the 6DoF pose of each vehicle is known, this information suffices to render novel viewpoints in which objects arrangement and mutual poses are preserved. Eventually, we overcome the need to decide a particular viewpoint in advance (e.g. bird's eye), presenting a framework for generating novel views of a vehicle from truly arbitrary 3D viewpoints, given a single monocular image. Differently from parametric (i.e. entirely learning-based) methods, we show how a-priori geometric knowledge about the object and the 3D world can be successfully integrated into a deep learning based image generation framework. As this geometric component is not learnt, we call our approach semi-parametric. This careful blend between parametric and non-parametric components allows us to i) operate in a real-world scenario, ii) preserve high-frequency visual information such as textures and iii) handle truly arbitrary 3D roto-translations of the input. We also show that our approach can be easily extended to other rigid objects with completely different topology, even in the presence of concave structures and holes. Comprehensive experimental analyses against state-of-the-art competitors show the efficacy of our proposals both from a quantitative and a perceptive point of view.

Il numero di dispositivi nel mondo che sono interconnessi tra loro sta crescendo rapidamente. Secondo un recente studio Gartner, entro la fine del 2020 saranno più di 20 miliardi. A causa del sempre maggior numero di persone che si spostano versi i centri urbani, il settore della mobilità si sta evolvendo rapidamente e sta diventando esso stesso una forza trainante in questa direzione. Gli stessi veicoli si stanno trasformando in sofisticati centri di calcolo dotati di un enorme di sensori che permettono capacità di percezione sempre maggiori. Larga parte di questi sensori è costituito da videocamere. All'interno del veicolo, tramite videocamere è possibile monitorare il guidatore e i passeggeri; altre all'esterno sono utilizzate per la comprensione della scena. Al tempo stesso, un gran numero di videocamere sono installate a livello di infrastruttura, per molteplici applicazioni: tra le altre, videosorveglianza, controllo dei flussi di traffico, lettura automatica delle targe. In questo panorama, questa tesi investiga come più punti di vista visuali sulla stessa scena urbana possono essere messi in relazione tra loro. Per prima cosa si studia il punto di vista del guidatore. A questo scopo è raccolto e reso pubblicamente disponibile il DR(eye)VE dataset, contenente i punti di fissazione del guidatore per più di 500000 frame di guida, integrati nel tempo in mappe di salienza specifiche per l'atto della guida. Su questo dataset viene effettuata un'approfondita analisi del comportamento attentivo del guidatore su dati reali. Sui risultati di questa analisi viene costruito un modello computazionale basato su deep learning dell'attenzione umana nell'atto della guida. Si ricerca inoltre se sia possibile imparare a mappare un punto di vista visuale dalla prima persona ad altre viste della scena, come una vista aerea. Poiché sarebbe impossibile raccogliere dati reali per questo task, viene raccolto e rilasciato un dataset sintetico di più di 1M di coppie di frame che raffiguranti rispettivamente la vista dal veicolo e la vista aerea. Con questi dati si allena una rete neurale convoluzionale in grado di inferire l'occupazione spaziale della vista aerea a partire dalla vista in prima persona. Prendendo una strada diversa per lo stesso obiettivo, è introdotto un encoder convoluzionale a due rami basato su rendering differenziabile che stima allo stesso tempo la categoria del veicolo e la sua posa nella scena. Nota la classe del veicolo e la sua posa, nuovi punti di vista possono essere generati rispettando la disposizione e la posa reciproca degli oggetti nella scena. Infine, si supera la necessità di scegliere un particolare punto di vista in anticipo (es: vista aerea) e si presenta un framework per la generazione di nuove viste di un veicolo da punti di vista arbitrari. A differenza dei metodi parametrici (basati esclusivamente sull'apprendimento dai dati), si mostra come conoscenze a-priori sulla geometria dell'oggetto e sul mondo 3D possono essere integrate con successo nella pipeline di generazione dell'immagine basata su deep learning. Dal momento che questi vincoli geometrici non sono imparati, questo approccio è chiamato semi-parametrico. L'integrazione tra componenti parametriche e non-parametriche consente di i) operare su dati reali ii) conservare informazioni visuali ad alta frequenza (es: texture) nella generazione e iii) operare roto-traslazioni 3D arbitrarie sull'input. Si mostra inoltre che questo approccio può essere facilmente esteso ad altri oggetti rigidi anche se di topologia completamente diversa, anche in presenza di strutture concave o buchi. Approfondite analisi sperimentali e confronti con lo stato dell'arte confermano l'efficacia dei metodi proposti sia dal punti di vista quantitativo che percettivo.

Città intelligenti: connettere i punti di vista visuali di guidatore, veicolo e infrastruttura / Andrea Palazzi , 2020 Mar 09. 32. ciclo, Anno Accademico 2018/2019.

Città intelligenti: connettere i punti di vista visuali di guidatore, veicolo e infrastruttura.

PALAZZI, ANDREA
2020

Abstract

The number of interconnected devices is growing rapidly around us. According to a recent Gartner report, 20.4 billion of connected “things” are expected to be in use by the end of 2020. Cities make no exception. As most of the world population is congregating in urban areas, the sector of smart mobility is growing rapidly and has become a strong driving force towards this direction. Vehicles in the first place are mutating into sophisticated data crunchers, featuring a wide range of sensors that enable increasing perception capabilities. Cameras constitute a large slice of these devices. In vehicles, inwards facing cameras allow to monitor the state of the driver and passengers, while multiple cameras pointing outwards are devoted to the understanding of the surrounding scene. At the same time, a massive number of infrastructure cameras are being installed around the cities with applications to surveillance, traffic flow monitoring, prediction plate recognition among others. In this frame, this thesis investigates how multiple visual viewpoints on the same urban scene can be put in relation to each other and how novel viewpoints can be generated. We start from the study of the driver's point of view. To this end, we collect and make publicly available a novel dataset called DR(eye)VE, composed of more than 500,000 frames of driving sequences containing drivers' gaze fixations and their temporal integration providing task-specific saliency maps. On this dataset we perform in-depth analysis of driver's attentional patterns on real-world data. Eventually, we build upon these findings to engineer and design the first deep learning based computational model of human attention during the driving task. We then research if it is possible to learn a mapping between the aforementioned first person viewpoint and other views of the scene, e.g. a bird's eye view. As collecting real-world data for this purpose would be unfeasible, we record and release a photorealistic synthetic dataset featuring 1M couples of frames, taken from both car dashboard and bird’s eye view. On these data we show that a deep convolutional network can indeed be trained to infer the bird's eye spatial occupancy of the scene starting from raw detections on the first person view. Exploring a different path towards the same goal, we introduce a two-branched convolutional encoder network based on differentiable rendering that jointly estimates the vehicle category and its 6-DoF pose in the scene. Once the category and the 6DoF pose of each vehicle is known, this information suffices to render novel viewpoints in which objects arrangement and mutual poses are preserved. Eventually, we overcome the need to decide a particular viewpoint in advance (e.g. bird's eye), presenting a framework for generating novel views of a vehicle from truly arbitrary 3D viewpoints, given a single monocular image. Differently from parametric (i.e. entirely learning-based) methods, we show how a-priori geometric knowledge about the object and the 3D world can be successfully integrated into a deep learning based image generation framework. As this geometric component is not learnt, we call our approach semi-parametric. This careful blend between parametric and non-parametric components allows us to i) operate in a real-world scenario, ii) preserve high-frequency visual information such as textures and iii) handle truly arbitrary 3D roto-translations of the input. We also show that our approach can be easily extended to other rigid objects with completely different topology, even in the presence of concave structures and holes. Comprehensive experimental analyses against state-of-the-art competitors show the efficacy of our proposals both from a quantitative and a perceptive point of view.
Smart cities: bridging driver's, vehicle and infrastructure viewpoints.
9-mar-2020
CUCCHIARA, Rita
File in questo prodotto:
File Dimensione Formato  
palazzi_phd_thesis.pdf

Open access

Descrizione: tesi di dottorato
Dimensione 48.75 MB
Formato Adobe PDF
48.75 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1200612
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact