I recenti avanzamenti nella potenza di calcolo e nelle telecomunicazioni hanno creato le giuste condizioni per la diffusione globale di enormi moli di informazioni elettroniche e di nuovi strumenti per l’analisi del loro contenuto, sollevando problemi di information overload e, in particolare, di duplicate detection. I duplicati, cioe' documenti molto simili che contengono approssimativamente le stesse informazioni, degradano l’efficacia e l’efficienza delle ricerche e, spesso, costituiscono anche violazioni di copyright. In questo articolo introduciamo DANCER (Document ANalysis and Comparison ExpeRt), un sistema completo di duplicate detection che sfrutta idee innovative nell’ambito dell’information retrieval per l’identificazione dei documenti duplicati, utilizzando algoritmi e misure di similarita' inedite in questo campo e sufficientemente fini da ottenere una buona efficacia nella maggior parte delle applicazioni. Inoltre, il sistema propone diverse nuove tecniche di data reduction che permettono di ridurre sia il tempo di esecuzione che lo spazio richiesto per la memorizzazione dei dati, senza compromettere la buona qualita' dei risultati.
Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti / Mandreoli, Federica; Martoglia, Riccardo; Tiberio, Paolo. - STAMPA. - 13:(2003), pp. 131-146. (Intervento presentato al convegno Undicesimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati (SEBD 2003) tenutosi a Cetraro, Italy nel June 2003).
Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti
MANDREOLI, Federica;MARTOGLIA, Riccardo;TIBERIO, Paolo
2003
Abstract
I recenti avanzamenti nella potenza di calcolo e nelle telecomunicazioni hanno creato le giuste condizioni per la diffusione globale di enormi moli di informazioni elettroniche e di nuovi strumenti per l’analisi del loro contenuto, sollevando problemi di information overload e, in particolare, di duplicate detection. I duplicati, cioe' documenti molto simili che contengono approssimativamente le stesse informazioni, degradano l’efficacia e l’efficienza delle ricerche e, spesso, costituiscono anche violazioni di copyright. In questo articolo introduciamo DANCER (Document ANalysis and Comparison ExpeRt), un sistema completo di duplicate detection che sfrutta idee innovative nell’ambito dell’information retrieval per l’identificazione dei documenti duplicati, utilizzando algoritmi e misure di similarita' inedite in questo campo e sufficientemente fini da ottenere una buona efficacia nella maggior parte delle applicazioni. Inoltre, il sistema propone diverse nuove tecniche di data reduction che permettono di ridurre sia il tempo di esecuzione che lo spazio richiesto per la memorizzazione dei dati, senza compromettere la buona qualita' dei risultati.Pubblicazioni consigliate
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris