Automatic layout analysis has proven to be extremely important in the process of digitization of large amounts of documents. In this paper we present a mixed approach to layout analysis, introducing a SVM-aided layout segmentation process and a classification process based on local and geometrical features. The final output of the automatic analysis algorithm is a complete and structured annotation in JSON format, containing the digitalized text as well as all the references to the illustrations of the input page, and which can be used by visualization interfaces as well as annotation interfaces. We evaluate our algorithm on a large dataset built upon the first volume of the “Enciclopedia Treccani”.
Layout analysis and content classification in digitized books / Corbelli, Andrea; Baraldi, Lorenzo; Balducci, Fabrizio; Grana, Costantino; Cucchiara, Rita. - ELETTRONICO. - 701(2017), pp. 153-165. ((Intervento presentato al convegno 12th Italian Research Conference on Digital Libraries tenutosi a Firenze nel Feb. 4-5.
Data di pubblicazione: | 2017 |
Titolo: | Layout analysis and content classification in digitized books |
Autore/i: | Corbelli, Andrea; Baraldi, Lorenzo; Balducci, Fabrizio; Grana, Costantino; Cucchiara, Rita |
Autore/i UNIMORE: | |
Digital Object Identifier (DOI): | http://dx.doi.org/10.1007/978-3-319-56300-8_14 |
Codice identificativo Scopus: | 2-s2.0-85018670416 |
Codice identificativo ISI: | WOS:000425872800014 |
Nome del convegno: | 12th Italian Research Conference on Digital Libraries |
Luogo del convegno: | Firenze |
Data del convegno: | Feb. 4-5 |
Serie: | COMMUNICATIONS IN COMPUTER AND INFORMATION SCIENCE |
Volume: | 701 |
Pagina iniziale: | 153 |
Pagina finale: | 165 |
Citazione: | Layout analysis and content classification in digitized books / Corbelli, Andrea; Baraldi, Lorenzo; Balducci, Fabrizio; Grana, Costantino; Cucchiara, Rita. - ELETTRONICO. - 701(2017), pp. 153-165. ((Intervento presentato al convegno 12th Italian Research Conference on Digital Libraries tenutosi a Firenze nel Feb. 4-5. |
Tipologia | Relazione in Atti di Convegno |
File in questo prodotto:
File | Descrizione | Tipologia | |
---|---|---|---|
2016_IRCDL.pdf | Post-print dell'autore (bozza post referaggio) | Open Access Visualizza/Apri |

I documenti presenti in Iris Unimore sono rilasciati con licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Italia, salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris