Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti

Mandreoli, Federica; Martoglia, Riccardo; Tiberio, Paolo

I recenti avanzamenti nella potenza di calcolo e nelle telecomunicazioni hanno creato le giuste condizioni per la diffusione globale di enormi moli di informazioni elettroniche e di nuovi strumenti per l’analisi del loro contenuto, sollevando problemi di information overload e, in particolare, di duplicate detection. I duplicati, cioe' documenti molto simili che contengono approssimativamente le stesse informazioni, degradano l’efficacia e l’efficienza delle ricerche e, spesso, costituiscono anche violazioni di copyright. In questo articolo introduciamo DANCER (Document ANalysis and Comparison ExpeRt), un sistema completo di duplicate detection che sfrutta idee innovative nell’ambito dell’information retrieval per l’identificazione dei documenti duplicati, utilizzando algoritmi e misure di similarita' inedite in questo campo e sufficientemente fini da ottenere una buona efficacia nella maggior parte delle applicazioni. Inoltre, il sistema propone diverse nuove tecniche di data reduction che permettono di ridurre sia il tempo di esecuzione che lo spazio richiesto per la memorizzazione dei dati, senza compromettere la buona qualita' dei risultati.

Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti / Mandreoli, F., Martoglia, R., Tiberio, P.. - STAMPA. - 13:(2003), pp. 131-146. (Undicesimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati (SEBD 2003) Cetraro, Italy June 2003).

Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti

MANDREOLI, Federica;MARTOGLIA, Riccardo;TIBERIO, Paolo

2003

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno di pubblicazione
	
				2003
			
	Titolo del Convegno
	
				Undicesimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati (SEBD 2003)
			
	Luogo del Convegno
	
				Cetraro, Italy
			
	Data del Convegno
	
				June 2003
			
	N° del Volume
	
				13
			
	Pagina iniziale
	
				131
			
	Pagina finale
	
				146
			
	Tutti gli autori
	
						Mandreoli, Federica; Martoglia, Riccardo; Tiberio, Paolo
					
	Citazione
	
				Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti / Mandreoli, F., Martoglia, R., Tiberio, P.. - STAMPA. - 13:(2003), pp. 131-146. (Undicesimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati (SEBD 2003) Cetraro, Italy June 2003).
			
	Tipologia
	
				Relazione in Atti di Convegno

File in questo prodotto:

Non ci sono file associati a questo prodotto.

Pubblicazioni consigliate

I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris