Video clips represent the most pervasive means of disseminating information nowadays. With their outbreak, needs for automatic categorization and content understanding have also increased, both for entertainment purposes and professional ones. In the context of multimedia and deep learning technologies for video comprehension, we explore and devise video-based algorithms and state-of-the-art solutions to tackle action recognition and fine-grained action localization. Our research is not limited to the quantitative evaluation of the proposed approaches for improving performance on specific tasks. We observe that handling video content usually brings some drawbacks. Videos often involve human actors and could arise privacy issues that are not yet sufficiently investigated by the computer vision community. Moreover, given their complexity and variability, videos are not easy to process and often require large computational resources. In addition to the application scenario, this thesis tackles two main challenges related to automatic video processing, namely privacy issues and computation. In the application part, we investigate the simultaneous detection of multiple actors and the classification of their actions, by exploiting interactions between people and surrounding objects, both in space and time. We also explore a more production-oriented application, in collaboration with Metaliquid SRL and in line with the company’s needs, by devising a deep network for salient action spotting in broadcast soccer matches. Regarding the privacy issue, we propose a novel strategy for masking people’s identities in video clips while preserving the ability of action recognition models to predict correct class labels. Finally, from the computational perspective, we develop an algorithm for reducing the size and resource utilization of existing deep neural networks, while keeping performances. These three aspects of video modeling are investigated separately but have proved to be generalizable, making it easier to build efficient and privacy-preserving action recognition models. All the alternatives and solutions presented in this work build upon deep learning, requiring a huge amount of data for learning video representations.

I video rappresentano oggi il mezzo più diffuso di condivisione delle informazioni. Con la loro diffusione, sono aumentate anche le esigenze di categorizzazione e di comprensione dei contenuti in modo automatico, sia per scopi di intrattenimento che per scopi professionali. In questa tesi vengono esplorati e progettati algoritmi e soluzioni per il riconoscimento automatico di azioni e per la loro localizzazione spazio-temporale nei video, utilizzando tecnologie multimediali e basate sul deep learning. Il lavoro non si limita alla valutazione quantitativa degli approcci proposti, al solo fine di migliorare le prestazioni su specifici task, ma affronta alcuni problemi che derivano dalla gestione dei contenuti video. Spesso i video coinvolgono persone e comportano problemi relativi alla loro privacy che non sono ancora investigati abbastanza dalla comunità scientifica. Inoltre, data la loro complessità e variabilità, i video rappresentano un tipo di dato difficile da elaborare e che richiede grandi risorse computazionali. Oltre allo scenario applicativo, questa tesi affronta anche problemi relativi alla sensibilità dei dati e alle risorse computazionali. Nella prima parte della tesi viene indagato il riconoscimento simultaneo di più attori e la classificazione delle loro azioni nei video, sfruttando interazioni sia spaziali che temporali tra le persone e gli oggetti circostanti. Viene poi progettata una rete neurale artificiale per l'individuazione di azioni salienti nelle partite di calcio, in collaborazione con Metaliquid SRL. Riguardo la privacy e i dati sensibili, viene proposto un nuovo metodo per mascherare l'identità delle persone nei video preservando la capacità dei modelli di predire le azioni in modo corretto. Infine, dal punto di vista computazionale, viene sviluppato un algoritmo per ridurre le dimensioni e l'utilizzo delle risorse delle reti neurali artificiali per il riconoscimento di azioni, mantenendo le prestazioni invariate. Questi aspetti della rappresentazione dei video vengono esaminati separatamente, rivelandosi generalizzabili in diversi scenari e rendendo più semplice la creazione di modelli di riconoscimento delle azioni efficienti e nel rispetto della privacy degli attori coinvolti. Tutte le alternative e le soluzioni presentate in questo lavoro si basano sul deep learning, che richiede un'enorme quantità di dati per l'apprendimento delle rappresentazioni video.

Riconoscimento di azioni nei video tramite tecnologie computazionali, multimediali e di apprendimento automatico / Matteo Tomei , 2022 Mar 25. 34. ciclo, Anno Accademico 2020/2021.

Riconoscimento di azioni nei video tramite tecnologie computazionali, multimediali e di apprendimento automatico

TOMEI, MATTEO
2022

Abstract

Video clips represent the most pervasive means of disseminating information nowadays. With their outbreak, needs for automatic categorization and content understanding have also increased, both for entertainment purposes and professional ones. In the context of multimedia and deep learning technologies for video comprehension, we explore and devise video-based algorithms and state-of-the-art solutions to tackle action recognition and fine-grained action localization. Our research is not limited to the quantitative evaluation of the proposed approaches for improving performance on specific tasks. We observe that handling video content usually brings some drawbacks. Videos often involve human actors and could arise privacy issues that are not yet sufficiently investigated by the computer vision community. Moreover, given their complexity and variability, videos are not easy to process and often require large computational resources. In addition to the application scenario, this thesis tackles two main challenges related to automatic video processing, namely privacy issues and computation. In the application part, we investigate the simultaneous detection of multiple actors and the classification of their actions, by exploiting interactions between people and surrounding objects, both in space and time. We also explore a more production-oriented application, in collaboration with Metaliquid SRL and in line with the company’s needs, by devising a deep network for salient action spotting in broadcast soccer matches. Regarding the privacy issue, we propose a novel strategy for masking people’s identities in video clips while preserving the ability of action recognition models to predict correct class labels. Finally, from the computational perspective, we develop an algorithm for reducing the size and resource utilization of existing deep neural networks, while keeping performances. These three aspects of video modeling are investigated separately but have proved to be generalizable, making it easier to build efficient and privacy-preserving action recognition models. All the alternatives and solutions presented in this work build upon deep learning, requiring a huge amount of data for learning video representations.
Deep video understanding for human actions, multimedia and computing
25-mar-2022
CUCCHIARA, Rita
File in questo prodotto:
File Dimensione Formato  
PhD_Thesis_Tomei_revised.pdf

Open access

Descrizione: Tesi definitiva Tomei Matteo
Tipologia: Tesi di dottorato
Dimensione 14.15 MB
Formato Adobe PDF
14.15 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1271188
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact