Selezione degli iperparametri nei metodi di ottimizzazione stocastica

Franchini, Giorgia

In the context of deep learning, the computational more expensive phase is the full training of the learning algorithm. Indeed the design of a new learning algorithm requires an extensive numerical investigation with the execution of a significant number of experimental trials. A fundamental aspect in designing a suitable learning algorithm is the selection of the hyperparameters (parameters that are not trained during the learning process), in a static or adaptive way. The aim of this thesis is to investigate the hyperparameters selection strategies on which standard machine learning algorithms are designed. In particular, we are interested in the different techniques to select the parameters related to the stochastic gradient methods used for training the machine learning methodologies. The main purposes that motivate this study are the improvement of the accuracy (or other metrics suitable for evaluating the inspected methodology) and the acceleration of the convergence rate of the iterative optimization schemes. To achieve these purposes, the analysis has mainly focused on the choice of the fundamental parameters (hyperparameters) in the stochastic gradient methods: the steplength, the minibatch size and the potential adoption of variance reduction techniques. In a first approach we considered separately the choice of steplength and minibatch size; then, we presented a technique that combines the two choices. About the steplength selection, we propose to tailor for the stochastic gradient iteration the steplength selection adopted in the full-gradient method known as Limited Memory Steepest Descent method. This strategy, based on the Ritz-like values of a suitable matrix, enables to give a local estimate of the inverse of the local Lipschitz parameter. Regarding the minibatch size the idea is to increasing dynamically, in an adaptive manner (based on suitable validation tests), this size. The experiments show that this training strategy is more efficient (in terms of time and costs) compared with the approaches available in literature. We combine the two parameter choices (steplength and minibatch size) in an adaptive scheme without introducing line search techniques, while the possible increase of the size of the subsample used to compute the stochastic gradient enables to control the variance of this direction. In the second part of the thesis, we introduce an Automatic Machine Learning (AutoML) technique to set these parameters. In particular, we propose a low-cost strategy to predict the accuracy of the learning algorithm, based only on its initial behavior. The initial and final accuracies observed during this beforehand process are stored in a database and used as training set of a Support Vector Machines learning algorithm. The aim is to predict the accuracy of a learning methodology, given its accuracy on the initial iterations of its learning process. In other word, by a probabilistic exploration of the hyperparameter space, we are able to find the setting providing optimal accuracies at a quite low cost. An extensive numerical experimentation was carried out involving convex and non-convex functions (in particular Convolutional Neural Networks). For the numerical experiments several datasets well known in literature have been used, for different problems such as: classification, segmentation, regression. Finally, a computational study is carried out to extend the proposed approaches to other methods, such as: Momentum, ADAM, SVRG. In conclusion, the contribution of the thesis consists in providing useful ideas about an effective and inexpensive selection of the hyperparameters in the class of the stochastic gradient methods.

Nel contesto del Deep Learning, la fase computazionalmente più costosa è l’addestramento completo dell'algoritmo di apprendimento. Infatti, la progettazione di un nuovo algoritmo di apprendimento richiede un'estesa indagine numerica con l'esecuzione di un numero significativo di prove sperimentali. Un aspetto fondamentale nella progettazione di un adeguato algoritmo di apprendimento è la selezione degli iperparametri (parametri che non vengono addestrati durante il processo di apprendimento), in modo statico o adattivo. Lo scopo di questa tesi è quello di indagare le strategie di selezione degli iperparametri, sui quali sono basati gli algoritmi standard di machine learning. In particolare, ci interessano le diverse tecniche di selezione dei parametri dei metodi del gradiente stocastico utilizzati per l'addestramento delle metodologie di machine learning. Gli scopi principali che motivano questo studio sono l’incremento dell’accuratezza (o altre metriche adatte a valutare la metodologia analizzata) e l'accelerazione della velocità di convergenza degli schemi iterativi di ottimizzazione. Per raggiungere questi scopi, l'analisi si è concentrata principalmente sulla scelta dei parametri fondamentali (iperparametri) nei metodi del gradiente stocastico: la lunghezza del passo, la dimensione del minibatch e il potenziale impiego di tecniche di riduzione della varianza. In un primo approccio abbiamo considerato separatamente la scelta della lunghezza di passo e della dimensione del minibatch; in seguito, si è presentata una tecnica che combina le due scelte. Per quel che riguarda la selezione della lunghezza di passo, si propone di adattare ai metodi stocastici la selezione della lunghezza di passo adottata nel metodo del gradiente noto come metodo Limited Memory Steepest Descent. Questa strategia, basata sui valori di Ritz di una opportuna matrice, permette di dare una stima locale dell'inverso del parametro di Lipschitz. Per quanto riguarda la dimensione del minibatch, l'idea è quella di aumentarla dinamicamente, in modo adattativo (tramite l’utilizzo di test di validazione). Gli esperimenti dimostrano che questa strategia adattativa è più efficiente (in termini di tempo e costi) rispetto agli approcci disponibili in letteratura. Come ulteriore sviluppo, le due scelte dei parametri (lunghezza di passo e dimensione del minibatch) sono state combinate in uno schema adattativo, senza introdurre tecniche di ricerca in linea ma utilizzando l’eventuale incremento della dimensione del minibatch usato nel calcolo del gradiente stocastico, per controllare la varianza della direzione di discesa. Nella seconda parte della tesi si è introdotta una tecnica di Automatic Machine Learning (AutoML) per fissare questi parametri. In particolare, si propone una strategia a basso costo per predire l'accuratezza dell'algoritmo di apprendimento, basata solo sul suo comportamento iniziale. Le accuraratezze iniziali e finali osservate durante questo processo preliminare vengono memorizzate in un database ed utilizzate come training set di un algoritmo di apprendimento Support Vector Machines. L'obiettivo è quello di predire l'accuratezza di una metodologia, considerandone solo i valori nelle iterate iniziali. In altre parole, attraverso un'esplorazione probabilistica dello spazio degli iperparametri, si è in grado di trovare la configurazione degli iperparametri che fornisce una precisione ottimale con un basso costo computazionale. Viene presentata un'ampia sperimentazione numerica che ha coinvolto funzioni convesse e non convesse (in particolare le Reti Neurali Convolutive). Per gli esperimenti numerici sono stati utilizzati diversi dataset ben noti in letteratura, per diversi problemi quali: classificazione, segmentazione e regressione. Infine, è stata condotta un’ulteriore sperimentazione finalizzata ad estendere gli approcci proposti ad altri metodi, come ad esempio Momentum, ADAM e SVRG.

Selezione degli iperparametri nei metodi di ottimizzazione stocastica / Giorgia Franchini , 2021 Feb 26. 33. ciclo, Anno Accademico 2019/2020.