Interferenza di Memoria e Mitigazioni su HeSoCs Riconfigurabili per Embedded IA

Brilli, Gianluca

The rapid growth seen in recent years in the world of high-end embedded systems has paved the way for next-generation applications, which were impratical few decades ago. One of the main examples are represented by Deep Neural Networks (DNNs), particular models of Artificial Intelligence (AI) that are inspired by the learning of information typical of a biological system. DNNs are widely adopted in several embedded domains and in particular in the so-called Cyber Physical Systems (CPS). Examples of CPS are autonomous robots, that typically integrate one or more neural networks into their navigation systems for perception and localization tasks. DNNs are characterized by a very high number of features and parameters, a characteristic that makes them compute-intensive by nature. To match this need, high-performance embedded chips manufacturers are increasingly adopting a heterogeneous design (HeSoC), where sequential processors and energy efficient neural engines coexist withing the same chip. These systems, defined Commercial-Off-The-Shelf (COTS), are typically organized according to a shared memory architectural scheme, where the memory hierarchy composed of multiple cache layers and a main memory (DRAM) is shared between the computational engines of the system. This scheme allows on the one hand to increase the time-to-market, the scalability of the system and in general to provide good average-case performance. However, it is not always adequate in applications where by construction the system must guarantee bounded performance even in the worst-case. Shared memory organization creates contention problems on shared resources, where the execution time of a task also depends on the number of other tasks that access a given shared resource in the same time interval. Several techniques have been proposed to mitigate the memory interference problem. One of these methodologies is the Predictable Execution Model (PREM), a mechanism that eliminates the problem of memory interference by imposing mutual exclusion. The study proposed in this thesis goes in the direction of the analysis and mitigation of the memory interference problem on HeSoCs designed for neural acceleration. The main aspects addressed in this dissertation are: (i) a characterization of state-of-the-art embedded neural networks engines, to study the typical workload of a DNN and the impact that could have on the system; (ii) A deep memory-interference characterization on such HeSoCs; (iii) Architectural solutions to mitigate memory interference and improve the low memory-bandwidth utilization of PREM-like schemes.

La rapida crescita osservata negli ultimi anni nel mondo dei sistemi embedded high-end ha aperto la strada ad applicazioni di nuova generazione, che pochi decenni fa erano impraticabili. Un tipico esempio di questa nuova generazione di applicazioni è rappresentato dalle Deep Neural Networks (DNN), particolari modelli di Intelligenza Artificiale (IA) che si ispirano all'apprendimento di informazioni tipiche di un sistema biologico. Le DNN sono ampiamente adottate in diversi domini embedded ed in particolare nei cosiddetti Sistemi Cyber Fisici (CPS). Esempi di CPS sono i robot autonomi, che in genere integrano una o più reti neurali nei loro sistemi di navigazione per compiti di percezione e localizzazione. Le DNN sono caratterizzate da un numero molto elevato di parametri, caratteristica che le rende per natura modelli compute-intensive. Per soddisfare questa esigenza, i produttori di chip embedded stanno adottando sempre più un design eterogeneo (HeSoC), in cui processori sequenziali ed engines neurali ad alta efficienza energetica coesistono all'interno dello stesso chip. Questi sistemi, definiti Commercial-Off-The-Shelf (COTS), sono tipicamente organizzati secondo uno schema architetturale a memoria condivisa, dove la gerarchia di memoria composta da più livelli di cache e da una memoria principale (DRAM) è condivisa tra i processing elements del sistema. Questo schema consente da un lato di ridurre il time-to-market, la scalabilità del sistema e in generale di fornire buone prestazioni nel caso medio. Tuttavia, non sempre risulta adeguato nelle applicazioni dove per costruzione il sistema deve fornire garanzie prestazionali anche nel worst case. L'organizzazione a memoria condivisa crea problemi di contesa sulle risorse condivise, dove il tempo di esecuzione di un task dipende anche dal numero di altri tasks che accedono a una determinata risorsa condivisa nello stesso intervallo di tempo. Sono state proposte diverse tecniche per mitigare il problema dell'interferenza della memoria. Una di queste metodologie è il Predictable Execution Model (PREM), un meccanismo che elimina il problema dell'interferenza della memoria imponendo la mutua esclusione. Lo studio proposto in questa tesi va nella direzione dell'analisi e della mitigazione del problema dell'interferenza di memoria su HeSoC progettati per l'accelerazione neurale. I principali aspetti affrontati in questa tesi sono: (i) una caratterizzazione di neural engines state-of-the-art, per studiare il carico di lavoro tipico di una DNN e l'impatto che potrebbe avere sul sistema; (ii) una dettagliata caratterizzazione dell'interferenza della memoria su tali HeSoC; (iii) Soluzioni architetturali per mitigare l'interferenza della memoria ed incrementare l'utilizzo della banda di memoria di schemi PREM-like.

Interferenza di Memoria e Mitigazioni su HeSoCs Riconfigurabili per Embedded IA / Gianluca Brilli , 2022 Feb 24. 34. ciclo, Anno Accademico 2020/2021.