As the world matures increasingly connected and digitized by the day, with sensors and computing devices becoming more and more pervasive, new opportunities appear for artificial intelligence. In particular, public monitoring steps forward as a critical theme, and computer vision can forcefully prevail as the lead technology to help build a safer world. In this thesis, we present solutions to tackle public safeguard in two different areas of operation. First, we begin with vehicle-based safety by developing a system capable of predicting where a person is likely to focus her attention on while driving. Such activity has a vast potential to improve driving safety. Nevertheless, it appears utterly complex since driving a car is a complicated task, and it is highly subjective from an attentive perspective. To handle attention prediction, we collect and release DR(eye)VE, a dataset consisting of driver-centric and car-centric clips, along with driver's fixation points on the outer urban scene. Next, we deeply inspect such data in order to establish which factors most influence a driver's gaze, both in terms of motion and semantics. Guided by such evidence, we finally develop a deep neural network that, given a car-centric urban scene, identifies which regions are likely to capture the driver's attention. Secondly, we address surveillance-based safety by introducing an anomaly detection model capable of learning the traits that characterize healthy (safe) situations and, therefore, alert when unexpected events appear. Learning such models without utilizing examples of abnormal conditions is the aim of anomaly detection (a.k.a. novelty detection) research. Despite its importance and a plethora of prior work, the unpredictable nature of novel events and their inaccessibility during the training procedure severely degrades the effectiveness of state-of-the-art systems. In this framework, we propose a general model consisting of a deep autoencoder equipped with a parametric density estimator, fitting its latent representations through an autoregressive procedure. We show that a maximum likelihood objective in latent space effectively regularizes the optimization of the autoencoder's reconstruction error, and minimizes the differential entropy of the distribution spanned by latent vectors. Intuitively, such a joint optimization forces the model to describe (and reconstruct) each example in terms of features that frequently appear in the training set. Extensive experimental inquiries and comparisons with prior art show the effectiveness of both our proposals.
Attraverso sensori e dispositivi informatici sempre più pervasivi il mondo diventa di giorno in giorno sempre più interconnesso e digitalizzato: di conseguenza, emergono nuove opportunità per l'intelligenza artificiale. In particolare, il monitoraggio pubblico si candida come tema critico e la visione artificiale ha le potenzialità per emergere come tecnologia guida nella costruzione di un mondo più sicuro. In questa tesi, presentiamo soluzioni per affrontare la salvaguardia pubblica in due diverse aree applicative. Consideriamo innanzitutto la sicurezza al volante, sviluppando un sistema in grado di prevedere su quali elementi della scena circostante un guidatore posa la sua attenzione. Nonostante il grande potenziale per il miglioramento della sicurezza, tale previsione appare molto complessa dal momento che guidare un'auto è un compito complicato, ed è altamente soggettivo dal punto di vista attentivo. A tal proposito, raccogliamo e rilasciamo DR(eye)VE, un dataset costituito da video acquisiti sia dal punto di vista del guidatore che da quello dell’auto, annotato con i punti di fissazione del guidatore sulla scena urbana esterna. Successivamente, una profonda ispezione di tali dati permette di stabilire quali fattori influenzano maggiormente l’attenzione del guidatore, in termini di movimento e di semantica. Guidati da tali evidenze, sviluppiamo infine una rete neurale profonda che, a partire da una scena urbana, identifica quali regioni sono salienti per l'attenzione del guidatore. In secondo luogo, affrontiamo la sicurezza in ambito videosorveglianza introducendo un modello di rilevamento delle anomalie. Tale modello è in grado di apprendere gli aspetti che caratterizzano situazioni normali (sicure), e quindi di generare una allerta ogni qualvolta compaiano eventi imprevisti. Addestrare tali modelli in assenza di esempi di condizioni anormale è lo scopo della ricerca per il rilevamento di anomalie (o rilevamento di novità). Nonostante la sua importanza ed una esuberanza di lavori precedenti, la natura imprevedibile di eventi anomali e la loro inaccessibilità durante la procedura di training degrada significativamente l'efficacia dei sistemi preesistenti. In questo contesto, proponiamo un modello generale costituito da un autoencoder profondo dotato di uno stimatore di densità parametrico, il quale impara la distribuzione delle sue rappresentazioni latenti attraverso una procedura autoregressiva. Mostriamo che un obiettivo di maximum likelihood nello spazio latente regolarizza l’obiettivo di ricostruzione dell'autoencoder e minimizza l'entropia differenziale della distribuzione dei vettori latenti. Intuitivamente, tale ottimizzazione congiunta forza il modello a descrivere (e ricostruire) ogni esempio in termini di features che appaiono frequentemente nel set di addestramento (pertanto, più rappresentative della normalità). Ampie indagini sperimentali e confronti con lo stato dell’arte dimostrano l'efficacia di entrambe le nostre proposte.
Identificazione di anomalie nell’attenzione del guidatore e nel comportamento delle persone / Davide Abati , 2020 Mar 09. 32. ciclo, Anno Accademico 2018/2019.
Identificazione di anomalie nell’attenzione del guidatore e nel comportamento delle persone.
ABATI, DAVIDE
2020
Abstract
As the world matures increasingly connected and digitized by the day, with sensors and computing devices becoming more and more pervasive, new opportunities appear for artificial intelligence. In particular, public monitoring steps forward as a critical theme, and computer vision can forcefully prevail as the lead technology to help build a safer world. In this thesis, we present solutions to tackle public safeguard in two different areas of operation. First, we begin with vehicle-based safety by developing a system capable of predicting where a person is likely to focus her attention on while driving. Such activity has a vast potential to improve driving safety. Nevertheless, it appears utterly complex since driving a car is a complicated task, and it is highly subjective from an attentive perspective. To handle attention prediction, we collect and release DR(eye)VE, a dataset consisting of driver-centric and car-centric clips, along with driver's fixation points on the outer urban scene. Next, we deeply inspect such data in order to establish which factors most influence a driver's gaze, both in terms of motion and semantics. Guided by such evidence, we finally develop a deep neural network that, given a car-centric urban scene, identifies which regions are likely to capture the driver's attention. Secondly, we address surveillance-based safety by introducing an anomaly detection model capable of learning the traits that characterize healthy (safe) situations and, therefore, alert when unexpected events appear. Learning such models without utilizing examples of abnormal conditions is the aim of anomaly detection (a.k.a. novelty detection) research. Despite its importance and a plethora of prior work, the unpredictable nature of novel events and their inaccessibility during the training procedure severely degrades the effectiveness of state-of-the-art systems. In this framework, we propose a general model consisting of a deep autoencoder equipped with a parametric density estimator, fitting its latent representations through an autoregressive procedure. We show that a maximum likelihood objective in latent space effectively regularizes the optimization of the autoencoder's reconstruction error, and minimizes the differential entropy of the distribution spanned by latent vectors. Intuitively, such a joint optimization forces the model to describe (and reconstruct) each example in terms of features that frequently appear in the training set. Extensive experimental inquiries and comparisons with prior art show the effectiveness of both our proposals.File | Dimensione | Formato | |
---|---|---|---|
phd_thesis.pdf
Open Access dal 09/03/2023
Descrizione: tesi di dottorato
Dimensione
46.47 MB
Formato
Adobe PDF
|
46.47 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris