Human body modelling is becoming one of the major domains as it serves a wide range of applications, ranging from e-commerce to automation in manufacturing and further research on safety mechanisms. The effective and accurate capture, representation, and interaction of the human body within digital environments is crucial for a wide range of activities, including increasing personalization in consumer experiences and ensuring the efficiency of complex systems in industries. This dissertation will attempt to contribute to a better understanding of human body analysis in two key domains: virtual try-on and multi-person pose estimation. Although the research objectives for both domains are explored separately, they all point to the same goal: to improve the modelling and understanding of human bodies in dynamic environments. The first section deals with virtual try-on technology, which has become increasingly crucial in the online fashion retail industry. Without actually having to wear the items, it enables the customer to see how they would fit and appear on their body. The key contribution of this research work to the field lies in its proposal of a unique high-resolution dataset that addresses significant limitations posed by publicly available datasets at this time. This data includes full-body and multi-category clothing items, with which visual quality can be improved for virtual try-on models. Furthermore, a new method for synthesizing highly detailed try-on images is elaborated, which reflects a person's body shape, pose, and fitting of the garment in a realistic way. This research enhances the authenticity and effectiveness of virtual try-on systems and is a precious contribution to scholars and fashion retailers in improving the online shopping experience. The second part focuses on multi-person pose estimation, a challenging task in which the goal is to detect and predict the body keypoints of multiple individuals within a single image. It has a variety of applications, particularly in the industrial sector, where it may aid in improving workplace safety, human-robot collaboration, and worker performance monitoring. The study presented here introduces a new approach employing a transformer-based architecture, enabling large increases in multi-pose detection accuracy in crowded and complex environments. The proposed method aims at reducing interference between the class prediction and keypoints localization, succeeding in performing even in challenging conditions. This thesis contributes novel insights and tools to improve human body modelling by independently advancing both the state-of-the-art virtual try-on and multi-person pose estimation. These will doubtless have an impact on a wide range of applications and further illustrate the importance of precise human body analysis in both commercial and industrial contexts. Work of this calibre, with careful experimentation and the introduction of new methodologies, forms the ground for further developments within the realm of digital human interaction.
Il modellamento del corpo umano sta diventando uno dei principali domini, poiché serve un'ampia gamma di applicazioni che spaziano dall'e-commerce all'automazione nella produzione e ulteriori ricerche sui meccanismi di sicurezza. La cattura, la rappresentazione e l'interazione efficaci e accurate del corpo umano all'interno di ambienti digitali sono fondamentali per un'ampia varietà di attività, tra cui l'aumento della personalizzazione nelle esperienze dei consumatori e il miglioramento dell'efficienza dei sistemi complessi nelle industrie. Questa dissertazione mira a contribuire a una migliore comprensione dell'analisi del corpo umano in due domini chiave: il virtual try-on e la stima delle pose per più persone. Sebbene gli obiettivi di ricerca per entrambi i domini siano esplorati separatamente, puntano tutti allo stesso scopo: migliorare il modellamento e la comprensione del corpo umano in ambienti dinamici. La prima sezione tratta della tecnologia del virtual try-on, che sta diventando sempre più cruciale nell'industria della moda online. Senza dover effettivamente indossare i capi, consente al cliente di vedere come questi si adatterebbero e apparirebbero sul proprio corpo. Il principale contributo di questo lavoro di ricerca consiste nella proposta di un esclusivo dataset ad alta risoluzione, che affronta significative limitazioni poste dai dataset pubblicamente disponibili al momento. Questi dati includono capi di abbigliamento a corpo intero e di diverse categorie, con i quali è possibile migliorare la qualità visiva dei modelli di virtual try-on. Inoltre, viene elaborato un nuovo metodo per sintetizzare immagini di try-on altamente dettagliate, che riflettono in modo realistico la forma del corpo, la posa e l'adattamento del capo. Questa ricerca migliora l'autenticità e l'efficacia dei sistemi di virtual try-on ed è un contributo prezioso per studiosi e rivenditori di moda nel migliorare l'esperienza di acquisto online. La seconda parte si concentra sulla stima delle pose per più persone, un compito impegnativo il cui obiettivo è rilevare e predire i punti chiave del corpo di più individui all'interno di una singola immagine. Ha una varietà di applicazioni, in particolare nel settore industriale, dove può aiutare a migliorare la sicurezza sul posto di lavoro, la collaborazione uomo-robot e il monitoraggio delle prestazioni dei lavoratori. Lo studio presentato introduce un nuovo approccio che impiega un'architettura basata su trasformatori, consentendo un notevole aumento dell'accuratezza nel rilevamento di pose multiple in ambienti affollati e complessi. Il metodo proposto mira a ridurre le interferenze tra la previsione della classe e la localizzazione dei punti chiave, riuscendo a operare efficacemente anche in condizioni difficili. Questa tesi apporta nuove intuizioni e strumenti per migliorare il modellamento del corpo umano, avanzando in modo indipendente sia lo stato dell'arte del virtual try-on che quello della stima delle pose per più persone. Questi contributi avranno senza dubbio un impatto su un'ampia gamma di applicazioni e illustrano ulteriormente l'importanza di un'analisi precisa del corpo umano in contesti sia commerciali che industriali. Un lavoro di questa portata, con esperimenti accurati e l'introduzione di nuove metodologie, costituisce le basi per ulteriori sviluppi nel campo dell'interazione digitale con il corpo umano.
Modellamento del Corpo Umano in Applicazioni Industriali: Stima delle Pose Multi-Persona e Virtual Try-On per un'Interazione Umana Avanzata / Matteo Fincato , 2025 Apr 07. 37. ciclo, Anno Accademico 2023/2024.
Modellamento del Corpo Umano in Applicazioni Industriali: Stima delle Pose Multi-Persona e Virtual Try-On per un'Interazione Umana Avanzata
FINCATO, MATTEO
2025
Abstract
Human body modelling is becoming one of the major domains as it serves a wide range of applications, ranging from e-commerce to automation in manufacturing and further research on safety mechanisms. The effective and accurate capture, representation, and interaction of the human body within digital environments is crucial for a wide range of activities, including increasing personalization in consumer experiences and ensuring the efficiency of complex systems in industries. This dissertation will attempt to contribute to a better understanding of human body analysis in two key domains: virtual try-on and multi-person pose estimation. Although the research objectives for both domains are explored separately, they all point to the same goal: to improve the modelling and understanding of human bodies in dynamic environments. The first section deals with virtual try-on technology, which has become increasingly crucial in the online fashion retail industry. Without actually having to wear the items, it enables the customer to see how they would fit and appear on their body. The key contribution of this research work to the field lies in its proposal of a unique high-resolution dataset that addresses significant limitations posed by publicly available datasets at this time. This data includes full-body and multi-category clothing items, with which visual quality can be improved for virtual try-on models. Furthermore, a new method for synthesizing highly detailed try-on images is elaborated, which reflects a person's body shape, pose, and fitting of the garment in a realistic way. This research enhances the authenticity and effectiveness of virtual try-on systems and is a precious contribution to scholars and fashion retailers in improving the online shopping experience. The second part focuses on multi-person pose estimation, a challenging task in which the goal is to detect and predict the body keypoints of multiple individuals within a single image. It has a variety of applications, particularly in the industrial sector, where it may aid in improving workplace safety, human-robot collaboration, and worker performance monitoring. The study presented here introduces a new approach employing a transformer-based architecture, enabling large increases in multi-pose detection accuracy in crowded and complex environments. The proposed method aims at reducing interference between the class prediction and keypoints localization, succeeding in performing even in challenging conditions. This thesis contributes novel insights and tools to improve human body modelling by independently advancing both the state-of-the-art virtual try-on and multi-person pose estimation. These will doubtless have an impact on a wide range of applications and further illustrate the importance of precise human body analysis in both commercial and industrial contexts. Work of this calibre, with careful experimentation and the introduction of new methodologies, forms the ground for further developments within the realm of digital human interaction.File | Dimensione | Formato | |
---|---|---|---|
Thesis_Matteo_Fincato_ICT_XXXVII_Cycle.pdf
Open access
Descrizione: Tesi definitiva Fincato Matteo
Tipologia:
Tesi di dottorato
Dimensione
10.1 MB
Formato
Adobe PDF
|
10.1 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris