This paper aims to make a brief presentation of the main features and potential of the Taltac4 freeware software through an exploratory analysis of a large corpus (more than 600 million of occurrences) which includes all the abstracts of the USPTO patent documents. Patents have been extensively used as a source of information on innovative activity but the textual content of patent documents has not been fully exploited in existing research. Our preliminary results are promising and suggest that text analysis of patent abstracts can help developing new classification of innovative activities, overcoming the shortcomings of existing classifications of technologies

In questo lavoro vengono brevemente illustrate le principali caratteristiche e potenzialità del software freeware Taltac4 attraverso un'analisi esplorativa di un corpus di grandi dimensioni (più di 600 milioni di occorrenze) che include tutti gli abstract dei documenti dei brevetti USPTO. I brevetti sono stati ampiamente utilizzati come fonte di informazioni sull'attività innovativa, ma il loro contenuto testuale non è stato pienamente sfruttato nella ricerca esistente. I nostri risultati preliminari sono promettenti e suggeriscono che l'analisi testuale degli abstract dei brevetti può aiutare a sviluppare una nuova classificazione delle attività innovative, superando le carenze delle classificazioni esistenti delle tecnologie

Text mining on large corpora using Taltac4: An explorative analysis of the USPTO patents database / Pavone, Pasquale; Martinelli, Arianna; Tamagni, Federico. - 2:(2022), pp. 783-788. (Intervento presentato al convegno SIS 2021 – 50st Scientific Meeting of the Italian Statistical Society tenutosi a Pisa nel 21-25 giugno 2021).

Text mining on large corpora using Taltac4: An explorative analysis of the USPTO patents database

Pasquale Pavone
;
2022

Abstract

This paper aims to make a brief presentation of the main features and potential of the Taltac4 freeware software through an exploratory analysis of a large corpus (more than 600 million of occurrences) which includes all the abstracts of the USPTO patent documents. Patents have been extensively used as a source of information on innovative activity but the textual content of patent documents has not been fully exploited in existing research. Our preliminary results are promising and suggest that text analysis of patent abstracts can help developing new classification of innovative activities, overcoming the shortcomings of existing classifications of technologies
2022
SIS 2021 – 50st Scientific Meeting of the Italian Statistical Society
Pisa
21-25 giugno 2021
2
783
788
Pavone, Pasquale; Martinelli, Arianna; Tamagni, Federico
Text mining on large corpora using Taltac4: An explorative analysis of the USPTO patents database / Pavone, Pasquale; Martinelli, Arianna; Tamagni, Federico. - 2:(2022), pp. 783-788. (Intervento presentato al convegno SIS 2021 – 50st Scientific Meeting of the Italian Statistical Society tenutosi a Pisa nel 21-25 giugno 2021).
File in questo prodotto:
File Dimensione Formato  
SIS 2021 paper.pdf

Open access

Tipologia: Versione pubblicata dall'editore
Dimensione 6.28 MB
Formato Adobe PDF
6.28 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1291484
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact