I recenti avanzamenti nella potenza di calcolo e nelle telecomunicazioni hanno creato le giuste condizioni per la diffusione globale di enormi moli di informazioni elettroniche e di nuovi strumenti per l’analisi del loro contenuto, sollevando problemi di information overload e, in particolare, di duplicate detection. I duplicati, cioe' documenti molto simili che contengono approssimativamente le stesse informazioni, degradano l’efficacia e l’efficienza delle ricerche e, spesso, costituiscono anche violazioni di copyright. In questo articolo introduciamo DANCER (Document ANalysis and Comparison ExpeRt), un sistema completo di duplicate detection che sfrutta idee innovative nell’ambito dell’information retrieval per l’identificazione dei documenti duplicati, utilizzando algoritmi e misure di similarita' inedite in questo campo e sufficientemente fini da ottenere una buona efficacia nella maggior parte delle applicazioni. Inoltre, il sistema propone diverse nuove tecniche di data reduction che permettono di ridurre sia il tempo di esecuzione che lo spazio richiesto per la memorizzazione dei dati, senza compromettere la buona qualita' dei risultati.

Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti / Mandreoli, Federica; Martoglia, Riccardo; Tiberio, Paolo. - STAMPA. - 13:(2003), pp. 131-146. (Intervento presentato al convegno Undicesimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati (SEBD 2003) tenutosi a Cetraro, Italy nel June 2003).

Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti

MANDREOLI, Federica;MARTOGLIA, Riccardo;TIBERIO, Paolo
2003

Abstract

I recenti avanzamenti nella potenza di calcolo e nelle telecomunicazioni hanno creato le giuste condizioni per la diffusione globale di enormi moli di informazioni elettroniche e di nuovi strumenti per l’analisi del loro contenuto, sollevando problemi di information overload e, in particolare, di duplicate detection. I duplicati, cioe' documenti molto simili che contengono approssimativamente le stesse informazioni, degradano l’efficacia e l’efficienza delle ricerche e, spesso, costituiscono anche violazioni di copyright. In questo articolo introduciamo DANCER (Document ANalysis and Comparison ExpeRt), un sistema completo di duplicate detection che sfrutta idee innovative nell’ambito dell’information retrieval per l’identificazione dei documenti duplicati, utilizzando algoritmi e misure di similarita' inedite in questo campo e sufficientemente fini da ottenere una buona efficacia nella maggior parte delle applicazioni. Inoltre, il sistema propone diverse nuove tecniche di data reduction che permettono di ridurre sia il tempo di esecuzione che lo spazio richiesto per la memorizzazione dei dati, senza compromettere la buona qualita' dei risultati.
2003
Undicesimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati (SEBD 2003)
Cetraro, Italy
June 2003
13
131
146
Mandreoli, Federica; Martoglia, Riccardo; Tiberio, Paolo
Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti / Mandreoli, Federica; Martoglia, Riccardo; Tiberio, Paolo. - STAMPA. - 13:(2003), pp. 131-146. (Intervento presentato al convegno Undicesimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati (SEBD 2003) tenutosi a Cetraro, Italy nel June 2003).
File in questo prodotto:
Non ci sono file associati a questo prodotto.
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/611550
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact