Making predictions is about getting insights into the patterns of our environment. We can access the physical world through media, measuring instruments, which provide us with data in which we hope to find useful patterns. The development of computing machines has allowed storing large data sets and processing them at high speed. Machine learning studies systems which can automate the detection of patterns in large data sets using computers. Machine learning lies at the core of data science and artificial intelligence, two research fields which are changing the economy and the society in which we live. Machine learning systems are usually trained and deployed on powerful computer clusters composed by hundreds or thousands of machines. Nowadays, the miniaturisation of computing devices is allowing deploying them on battery-powered systems embedded into diverse environments. With respect to computer clusters, these devices are far less powerful, but have the advantage of being nearer to the source of the data. On one side, this increases the number of applications of machine learning systems; on the other side, the physical limitations of the computing machines require identifying proper metrics to assess the fitness of different machine learning systems in a given context. In particular, these systems should be evaluated according not only to their modelling and statistical properties, but also to their algorithmic costs and their fitness to different computer architectures. In this thesis, we analyse modelling, algorithmic and architectural properties of different machine learning systems. We present the fingerprint method, a system which was developed to solve a business intelligence problem where statistical accuracy was more important than latency or energy constraints. Then, we analyse artificial neural networks and discuss their appealing computational properties; we also describe an example application, a model we designed to identify the objective causes of subjective driving perceptions. Finally, we describe and analyse quantized neural networks, artificial neural networks which use finite sets for the parameters and step activation functions. These limitations pose challenging mathematical problems, but quantized neural networks can be executed extremely efficiently on dedicated hardware accelerators, making them ideal candidates to deploy machine learning on edge computers. In particular, we show that quantized neural networks are equivalent to classical artificial neural networks (at least on the set of targets represented by continuous functions defined on compact domains); we also present a novel gradient-based learning algorithm for, named additive noise annealing, based on the regularisation effect of additive noise on the argument of discontinuous functions, reporting state-of-the-art results on image classification benchmarks.

Il fare predizioni si fonda sulla comprensione degli schemi del nostro ambiente. Possiamo aver accesso alla realtà fisica grazie a strumenti di misura che ci forniscono dati nei quali speriamo di trovare schemi utili. Lo sviluppo delle macchine calcolatrici ha permesso di stoccare grandi insiemi di dati e di processarli ad alta velocità. L’apprendimento automatico studia sistemi capaci di automatizzare l’identificazione di schemi in grandi insiemi di dati utilizzando i computer. L’apprendimento automatico è al cuore della scienza dei dati e dell’intelligenza artificiale, due campi di ricerca che stanno cambiando l’economia e la società in cui viviamo. I sistemi di apprendimento automatico sono solitamente addestrati ed eseguiti su potenti cluster di computer composti da centinaia o migliaia di macchine. Oggigiorno, la miniaturizzazione dei dispositivi di calcolo sta permettendo di utilizzarli su sistemi, alimentati a batteria, posizionati in ambienti diversi. Rispetto ai cluster di computer, questi dispositivi sono molto meno potenti, ma hanno il vantaggio di essere più vicini alla sorgente dei dati. Da un lato, questo estende il numero di applicazioni dei sistemi di apprendimento automatico; dall’altro, le limitazioni fisiche delle macchine calcolatrici richiedono di identificare metriche appropriate per valutare l’idoneità di sistemi di apprendimento automatico differenti in un contesto dato. In particolare, questi sistemi dovrebbero essere valutati basandosi non solo sulle loro proprietà modellistiche e statistiche, ma anche sui loro costi algoritmici e sulla loro idoneità a diverse architetture di calcolatori. In questa tesi, analizziamo le proprietà modellistiche, algoritmiche ed architetturali di diversi sistemi di apprendimento automatico. Presentiamo il metodo fingerprint, un sistema che è stato sviluppato per risolvere un problema di strategia commerciale in cui l’accuratezza statistica è più importante dei vincoli di latenza o di consumo energetico. Dopodiché, analizziamo le reti neurali artificiali e discutiamo le loro proprietà computazionali; descriviamo anche un esempio di applicazione, un modello che abbiamo progettato per identificare le cause oggettive di percezioni soggettive alla guida. Infine, descriviamo ed analizziamo le reti neurali quantizzate, reti neurali artificiali che usano insiemi finiti per i parametri e funzioni di attivazione a scala. Queste limitazioni pongono problemi matematici non banali, ma le reti neurali quantizzate possono essere eseguite in modo estremamente efficiente su acceleratori hardware dedicati, rendendole candidate ideali per utilizzare l’apprendimento automatico su computer edge. In particolare, mostriamo che le reti neurali quantizzate sono equivalenti alle reti neurali artificiali classiche (quantomeno sull’insieme di bersagli rappresentato dalle funzioni continue definite su domini compatti); presentiamo anche un nuovo algoritmo di apprendimento basato sul gradiente, chiamato additive noise annealing, basato sull’effetto regolarizzante del rumore additivo sull’argomento di funzioni discontinue, riportando risultati allo stato dell’arte su benchmark di classificazione d’immagini.

Un framework per l’analisi dei sistemi di apprendimento automatico / Matteo Spallanzani , 2020 Feb 28. 32. ciclo, Anno Accademico 2018/2019.

Un framework per l’analisi dei sistemi di apprendimento automatico

SPALLANZANI, MATTEO
2020

Abstract

Making predictions is about getting insights into the patterns of our environment. We can access the physical world through media, measuring instruments, which provide us with data in which we hope to find useful patterns. The development of computing machines has allowed storing large data sets and processing them at high speed. Machine learning studies systems which can automate the detection of patterns in large data sets using computers. Machine learning lies at the core of data science and artificial intelligence, two research fields which are changing the economy and the society in which we live. Machine learning systems are usually trained and deployed on powerful computer clusters composed by hundreds or thousands of machines. Nowadays, the miniaturisation of computing devices is allowing deploying them on battery-powered systems embedded into diverse environments. With respect to computer clusters, these devices are far less powerful, but have the advantage of being nearer to the source of the data. On one side, this increases the number of applications of machine learning systems; on the other side, the physical limitations of the computing machines require identifying proper metrics to assess the fitness of different machine learning systems in a given context. In particular, these systems should be evaluated according not only to their modelling and statistical properties, but also to their algorithmic costs and their fitness to different computer architectures. In this thesis, we analyse modelling, algorithmic and architectural properties of different machine learning systems. We present the fingerprint method, a system which was developed to solve a business intelligence problem where statistical accuracy was more important than latency or energy constraints. Then, we analyse artificial neural networks and discuss their appealing computational properties; we also describe an example application, a model we designed to identify the objective causes of subjective driving perceptions. Finally, we describe and analyse quantized neural networks, artificial neural networks which use finite sets for the parameters and step activation functions. These limitations pose challenging mathematical problems, but quantized neural networks can be executed extremely efficiently on dedicated hardware accelerators, making them ideal candidates to deploy machine learning on edge computers. In particular, we show that quantized neural networks are equivalent to classical artificial neural networks (at least on the set of targets represented by continuous functions defined on compact domains); we also present a novel gradient-based learning algorithm for, named additive noise annealing, based on the regularisation effect of additive noise on the argument of discontinuous functions, reporting state-of-the-art results on image classification benchmarks.
A framework for the analysis of machine learning systems
28-feb-2020
BERTOGNA, Marko
File in questo prodotto:
File Dimensione Formato  
A_Framework_for_the_Analysis_of_Machine_Learning_Systems.pdf

Open access

Descrizione: tesi di dottorato
Dimensione 5.52 MB
Formato Adobe PDF
5.52 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

Licenza Creative Commons
I metadati presenti in IRIS UNIMORE sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono rilasciati con licenza Attribuzione 4.0 Internazionale (CC BY 4.0), salvo diversa indicazione.
In caso di violazione di copyright, contattare Supporto Iris

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11380/1200571
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact