OpenFashionCLIP: Vision-and-Language Contrastive Learning with Open-Source Fashion Data

Cartella, Giuseppe; Baldrati, Alberto; Morelli, Davide; Cornia, Marcella; Bertini, Marco; Cucchiara, Rita

doi:10.1007/978-3-031-43148-7_21

The inexorable growth of online shopping and e-commerce demands scalable and robust machine learning-based solutions to accommodate customer requirements. In the context of automatic tagging classification and multimodal retrieval, prior works either defined a low generalizable supervised learning approach or more reusable CLIP-based techniques while, however, training on closed source data. In this work, we propose OpenFashionCLIP, a vision-and-language contrastive learning method that only adopts open-source fashion data stemming from diverse domains, and characterized by varying degrees of specificity. Our approach is extensively validated across several tasks and benchmarks, and experimental results highlight a significant out-of-domain generalization capability and consistent improvements over state-of-the-art methods both in terms of accuracy and recall. Source code and trained models are publicly available at: https://github.com/aimagelab/open-fashion-clip.

OpenFashionCLIP: Vision-and-Language Contrastive Learning with Open-Source Fashion Data / Cartella, Giuseppe; Baldrati, Alberto; Morelli, Davide; Cornia, Marcella; Bertini, Marco; Cucchiara, Rita. - 14233:(2023), pp. 245-256. ( 22nd International Conference on Image Analysis and Processing, ICIAP 2023 Udine, Italy September 11-15, 2023) [10.1007/978-3-031-43148-7_21].

OpenFashionCLIP: Vision-and-Language Contrastive Learning with Open-Source Fashion Data

Cartella, Giuseppe;Baldrati, Alberto;Morelli, Davide;Cornia, Marcella;Bertini, Marco;Cucchiara, Rita

2023

Abstract

The inexorable growth of online shopping and e-commerce demands scalable and robust machine learning-based solutions to accommodate customer requirements. In the context of automatic tagging classification and multimodal retrieval, prior works either defined a low generalizable supervised learning approach or more reusable CLIP-based techniques while, however, training on closed source data. In this work, we propose OpenFashionCLIP, a vision-and-language contrastive learning method that only adopts open-source fashion data stemming from diverse domains, and characterized by varying degrees of specificity. Our approach is extensively validated across several tasks and benchmarks, and experimental results highlight a significant out-of-domain generalization capability and consistent improvements over state-of-the-art methods both in terms of accuracy and recall. Source code and trained models are publicly available at: https://github.com/aimagelab/open-fashion-clip.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno di pubblicazione
	
				2023
			
	Lingua/e di pubblicazione
	
				Inglese
			
	Titolo del Convegno
	
				22nd International Conference on Image Analysis and Processing, ICIAP 2023
			
	Luogo del Convegno
	
				Udine, Italy
			
	Data del Convegno
	
				September 11-15, 2023
			
	Codice DOI
	
				https://dx.doi.org/10.1007/978-3-031-43148-7_21
			
	Codice WoS
	
				WOS:001156196000021
			
	Codice Scopus
	
				2-s2.0-85172249158
			
	Serie
	
				LECTURE NOTES IN COMPUTER SCIENCE
			
	Titolo del Volume
	
				Proceedings of the 22nd International Conference on Image Analysis and Processing
			
	Curatore/i del Volume (Editors)
	
				Foresti G.L., Fusiello A., Hancock E.
			
	N° del Volume
	
				14233
			
	Pagina iniziale
	
				245
			
	Pagina finale
	
				256
			
	Codice ISBN del Volume
	
				9783031431470
			
	Nome Editore
	
				Springer Science and Business Media Deutschland GmbH
			
	Parole chiave
	
				Fashion Domain; Open-Source Datasets; Vision-and-Language Pre-Training;
			
	Tutti gli autori
	
						Cartella, Giuseppe; Baldrati, Alberto; Morelli, Davide; Cornia, Marcella; Bertini, Marco; Cucchiara, Rita
					
	Tipologia
	
				Atti di CONVEGNO::Relazione in Atti di Convegno
			
	Tipologia sito docente
	
				273
			
	Numero autori
	
				6
			
	Citazione
	
				OpenFashionCLIP: Vision-and-Language Contrastive Learning with Open-Source Fashion Data / Cartella, Giuseppe; Baldrati, Alberto; Morelli, Davide; Cornia, Marcella; Bertini, Marco; Cucchiara, Rita. - 14233:(2023), pp. 245-256. ( 22nd International Conference on Image Analysis and Processing, ICIAP 2023 Udine, Italy September 11-15, 2023) [10.1007/978-3-031-43148-7_21].
			
	Fulltext
	
				open
			
	Tipologia
	
				info:eu-repo/semantics/conferenceObject
			
	Tipologia
	
				Relazione in Atti di Convegno

File in questo prodotto:

File	Dimensione	Formato
2023-iciap-fashion.pdf Open access Tipologia: AAM - Versione dell'autore revisionata e accettata per la pubblicazione Dimensione 1.87 MB Formato Adobe PDF Visualizza/Apri	1.87 MB	Adobe PDF	Visualizza/Apri

Pubblicazioni consigliate

I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris