Duplicate detection aims to identify different records in data sources that refers to the same real-world entity. It is a fundamental task for: item catalogs fusion, customer databases integration, fraud detection, and more. In this work we present BigDedup, a toolkit able to detect duplicate records on Big Data sources in an efficient manner. BigDedup makes available the state-of-the-art duplicate detection techniques on Apache Spark, a modern framework for distributed computing in Big Data scenarios. It can be used in two different ways: (i) through a simple graphic interface that permit the user to process structured and unstructured data in a fast and effective way; (ii) as a library that provides different components that can be easily extended and customized. In the paper we show how to use BigDedup and its usefulness through some industrial examples.
BigDedup: a Big Data Integration toolkit for Duplicate Detection in Industrial Scenarios / Gagliardelli, Luca; Zhu, Song; Simonini, Giovanni; Bergamaschi, Sonia. - 7(2018), pp. 1015-1023. ((Intervento presentato al convegno 25th International Conference on Transdisciplinary Engineering (TE2018) tenutosi a Modena nel July 3-6, 2018.
Data di pubblicazione: | 2018 |
Titolo: | BigDedup: a Big Data Integration toolkit for Duplicate Detection in Industrial Scenarios |
Autore/i: | Gagliardelli, Luca; Zhu, Song; Simonini, Giovanni; Bergamaschi, Sonia |
Autore/i UNIMORE: | |
Digital Object Identifier (DOI): | http://dx.doi.org/10.3233/978-1-61499-898-3-1015 |
Codice identificativo Scopus: | 2-s2.0-85057972161 |
Codice identificativo ISI: | WOS:000468226300101 |
Nome del convegno: | 25th International Conference on Transdisciplinary Engineering (TE2018) |
Luogo del convegno: | Modena |
Data del convegno: | July 3-6, 2018 |
Volume: | 7 |
Pagina iniziale: | 1015 |
Pagina finale: | 1023 |
Citazione: | BigDedup: a Big Data Integration toolkit for Duplicate Detection in Industrial Scenarios / Gagliardelli, Luca; Zhu, Song; Simonini, Giovanni; Bergamaschi, Sonia. - 7(2018), pp. 1015-1023. ((Intervento presentato al convegno 25th International Conference on Transdisciplinary Engineering (TE2018) tenutosi a Modena nel July 3-6, 2018. |
Tipologia | Relazione in Atti di Convegno |
File in questo prodotto:
File | Descrizione | Tipologia | |
---|---|---|---|
ATDE7-1015.pdf | Versione dell'editore (versione pubblicata) | Open Access Visualizza/Apri |

I documenti presenti in Iris Unimore sono rilasciati con licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Italia, salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris