Modello Roofline
Il modello Roofline (in italiano letteralmente "linea del tetto") è un modello di performance visuale che consente in maniera intuitiva di stimare le performance di un dato kernel computazionale o di una applicazione che esegue su architetture di calcolo di tipo multi-core, many-core o su acceleratori, mostrando graficamente le limitazioni inerenti all'hardware usato e le potenziali ottimizzazioni da poter applicare, nonché la priorità con cui esse necessitano di essere applicate.[1][2] Facendo convergere aspetti riguardanti la località dei dati, la banda, e paradigmi di parallelizzazione in un'unica raffigurazione, il modello di fatto costituisce una valida alternativa al semplice utilizzo della percentuale del picco di performance per valutare la qualità delle prestazioni ottenute, dal momento che è in grado di modellare analiticamente sia dettagli implementativi che limitazioni alle prestazioni dovute a caratteristiche intrinseche dell'architettura considerata.[1]
Il modello Roofline nella sua versione base può essere visualizzato graficando le prestazioni relative all'esecuzione di istruzioni a virgola mobile (FLOPS) come funzione del picco di performance, il picco di banda della macchina, e l'intensità operativa. La curva risultante, chiamata appunto Roofline, costituisce un limite superiore alle prestazioni ottenibili, al di sotto della quale esistono le effettive performance per il dato kernel o applicazione. Suddetta curva include due limiti massimi specifici della piattaforma: un limite derivato dalla banda di memoria e un limite derivato dal picco di performance dell'unità di computazione.
Termini e metriche di performance associate
modificaLavoro
modificaIl lavoro indica il numero di operazioni eseguite da un dato kernel computazionale o applicazione.[3] Questa metrica può riferirsi ad un qualsiasi tipo di operazione, a partire dal numero di punti di array aggiornati al secondo, al numero di operazioni intere al secondo, al numero di operazioni a virgola mobile per secondo (FLOPS), e la scelta di una o l'altra è dettata dal caso e dalle necessità. Tuttavia, nella maggior parte dei casi, è espresso in FLOPS.[1][2][3][4][5]
Da notare che il lavoro è una proprietà del dato kernel o applicazione e pertanto dipende solo parzialmente dalle caratteristiche della piattaforma.
Traffico di memoria
modificaIl traffico di memoria indica il numero di bytes di memoria trasferiti durante l'esecuzione del kernel o applicazione.[3] Contrariamente a , è altamente dipendente dalle proprietà della piattaforma usata, come per esempio la topologia della cache.[3]
Intensità operativa
modificaL'intensità operativa , alle volte definita come intensità aritmetica[2][6], rappresenta il rapporto tra il lavoro e il traffico di memoria :[3]
e indica il numero di operazioni effettuate per byte di traffico di memoria. Quando il lavoro è espresso in FLOPS, la risultante intensità operativa è espressa come il rapporto tra le operazioni a virgola mobile e il volume di dati trasferiti (FLOPS/byte).
Roofline naïve
modificaIl Roofline naïve[2] è ottenuto tramite una semplice analisi "di limite e collo di bottiglia" (bound and bottleneck).[7] In questa formulazione del modello Roofline sono presenti solo due parametri: picco di performance e picco di banda della specifica architettura; ed una variabile: intensità operativa. Il picco di performance, espresso in generale in GFLOPS, può essere generalmente derivato da manuali architetturali, mentre il picco di banda, che nello specifico si riferisce all picco di banda della DRAM, è invece ottenuto tramite benchmarking.[2][3] Il grafico risultante, in generale avente entrambi gli assi in scala logaritmica, è quindi derivato dalla formula seguente:[3]
Dove rappresenta le performance ottenibili, rappresenta il picco di performance, rappresenta il picco di banda e rappresenta l'intensità operativa. Il punto in cui le performance saturano al livello di picco di performance - i.e. dove il limite diagonale e quello orizzontale si incontrano - è definito come punto di cresta (ridge point).[1] Il punto di cresta consente di effettuare utili considerazioni sulle prestazioni complessive della macchina, poiché fornisce la minima intensità operativa richiesta per poter raggiungere il picco di performance, e pertanto suggerisce la quantità di sforzo richiesto al programmatore per approcciare, almeno teoricamente, suddetto picco.[1]
Un dato kernel o applicazione è quindi caratterizzato da un punto dato dalla sua intensità operativa (sulle ascisse). Il termine relativo alle performance ottenibili è pertanto identificato tracciando una linea verticale passante per quel punto che incroci la Roofline. Conseguentemente, il kernel o applicazione è detto essere memory-bound se . Se invece , la computazione è detta essere compute-bound.[3]
Aggiungere limiti superiori al modello
modificaIl Roofline naïve fornisce solo un limite superiore massimo (il massimo teorico) alle performance. Sebbene questa versione del modello di per sé consente di ricavare utili informazioni sulle performance ottenibili, è di fatto incompleto, in quanto non modella in maniera sufficientemente dettagliata le caratteristiche della piattaforma utilizzata e pertanto non consente una analisi esaustiva dei fattori che limitano le prestazioni. Se ad esempio il kernel computazionale o applicazione in oggetto raggiunge prestazioni che sono molto al di sotto della Roofline, potrebbe essere utile catturare altri limiti superiori delle performance, in aggiunta ai semplici picco di banda e picco di performance, al fine di guidare lo sviluppatore nel processo di scelta delle ottimizzazioni da implementare, o ancora per valutare qualitativamente l'adeguatezza dell'architettura usata rispetto al kernel o applicazione di cui si sta effettuando l'analisi.[2] I limiti superiori aggiunti impongono pertanto un limite sulle performance ottenibili che è al di sotto della Roofline, e indicano che il kernel o applicazione non può passare oltre nessuno di questi limiti senza prima eseguire l'ottimizzazione associata.[1][2]
Il grafico Roofline può essere espanso in tre aspetti differenti: comunicazione, aggiungendo i limiti di banda, computazione, aggiungendo i limiti in-core, e località dei dati, aggiungendo i muri di località.
-
Un esempio di modello Roofline con l'aggiunta di limiti di banda. In questo modello, i due limiti addizionali rappresentano la mancanza di software prefetching e di una organizzazione NUMA della memoria.
-
Un esempio di modello Roofline con l'aggiunta di limiti in-core, dove i due limiti aggiunti rappresentano la mancanza di instruction level parallelism e task level parallelism.
-
Un esempio di modello Roofline con aggiunti i muri di località. Il muro etichettato come 3 C's indica la presenza di tutti e tre i tipi di cache miss: compulsory, capacity e conflict miss. Il muro etichettato con 2 C's indica la presenza di compulsory e capacity miss o compulsory e conflict miss. L'ultimo muro denota la presenza dei soli compulsory miss.
Limiti di banda
modificaI limiti di banda sono linee diagonali che limitano la banda e sono piazzate al di sotto della diagonale di picco di banda. La loro esistenza è causata dalla mancanza di specifiche ottimizzazioni architetturali relative alla memoria, come la coerenza delle cache, o di ottimizzazione software, come la mancanza di una sufficiente esposizione della concorrenza (che conseguentemente può limitare l'utilizzo di banda).[1][2]
Limiti in-core
modificaI limiti in-core sono curve situate al di sotto della reale Roofline, la cui presenza scaturisce dalla mancanza di una determinata forma di parallelismo. Questi limiti superiori impongono di fatto una riduzione su quanto elevate le performance di una data applicazione o kernel computazionale possono essere. Le performance non possono eccedere questi limiti in-core a meno che la relativa forma di parallelismo sia esistente ed effettivamente sfruttata. Suddetti limiti possono in certi casi essere direttamente derivati dai manuali architetturali e non soltanto da benchmarking.[1][2]
Muri di località
modificaSe l'assunzione idealistica che l'intensità operativa è funzione delle sole caratteristiche del dato kernel o applicazione è rimossa, e pertanto viene considerata la topologia della cache, e di conseguenza la presenza di cache miss, l'intensità operativa risulta di conseguenza dipendente da una combinazione del kernel e dell'architettura in uso. Ciò può risultare in un degrado delle prestazioni dipendente dal bilanciamento tra l'intensità operativa risultante e il punto di cresta. Contrariamente alle due categorie di limiti precedenti, le linee risultanti da questo tipo di analisi sono linee verticali che limitano l'intensità operativa e che non possono essere superate senza la dovuta ottimizzazione. Per questa ragione, suddette linee sono chiamate muri di località o più semplicemente muri di intensità operativa.[1][2]
Estensioni del modello
modificaSuccessivamente alla sua introduzione,[1][2] il modello è stato ulteriormente esteso per considerare un più ampio insieme di metriche e colli di bottiglia relativi all'hardware. Attualmente in letteratura si possono trovare estensioni che considerano l'impatto di una organizzazione della memoria NUMA,[5] di esecuzione delle istruzioni fuori ordine,[8] della latenza delle memorie,[8][9] e che modellano la gerarchia della cache a un livello più dettagliato,[4][8] al fine di fornire una visione più completa dei fattori che limitano le prestazioni e conseguentemente guidare il processo di ottimizzazione.
Inoltre, il modello è stato esteso anche per adattarsi ad architetture specifiche e alle relative caratteristiche, come nel caso delle FPGA.[10]
Note
modifica- ^ a b c d e f g h i j Samuel Williams, Andrew Waterman e David Patterson, Roofline: An Insightful Visual Performance Model for Multicore Architectures, in Commun. ACM, vol. 52, n. 4, 1º aprile 2009, pp. 65–76, DOI:10.1145/1498765.1498785, ISSN 0001-0782 .
- ^ a b c d e f g h i j k Samuel W. Williams, Auto-tuning Performance on Multicore Computers (tesi Ph.D.), University of California at Berkeley, 2008.
- ^ a b c d e f g h G. Ofenbeck, R. Steinmann, V. Caparros, D. G. Spampinato e M. Püschel, Applying the roofline model, in 2014 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS), 1º marzo 2014, pp. 76–85, DOI:10.1109/ISPASS.2014.6844463.
- ^ a b A. Ilic, F. Pratas e L. Sousa, Cache-aware Roofline model: Upgrading the loft, in IEEE Computer Architecture Letters, vol. 13, n. 1, 1º gennaio 2014, pp. 21–24, DOI:10.1109/L-CA.2013.6, ISSN 1556-6056 .
- ^ a b (EN) Oscar G. Lorenzo, Tomás F. Pena, José C. Cabaleiro, Juan C. Pichel e Francisco F. Rivera, Using an extended Roofline Model to understand data and thread affinities on NUMA systems, in Annals of Multicore and GPU Programming, vol. 1, n. 1, 31 marzo 2014, pp. 56–67, ISSN 2341-3158 .
- ^ Roofline Performance Model, su crd.lbl.gov, Lawrence Berkeley National Laboratory. URL consultato il 19 giugno 2016 (archiviato dall'url originale il 12 giugno 2016).
- ^ Kornilios Kourtis, Georgios Goumas e Nectarios Koziris, Optimizing Sparse Matrix-vector Multiplication Using Index and Value Compression, in Proceedings of the 5th Conference on Computing Frontiers, CF '08, New York, NY, USA, ACM, 1º gennaio 2008, pp. 87–96, DOI:10.1145/1366230.1366244, ISBN 978-1-60558-077-7.
- ^ a b c V. C. Cabezas e M. Püschel, Extending the roofline model: Bottleneck analysis with microarchitectural constraints, in 2014 IEEE International Symposium on Workload Characterization (IISWC), 1º ottobre 2014, pp. 222–231, DOI:10.1109/IISWC.2014.6983061.
- ^ (EN) O. G. Lorenzo, T. F. Pena, J. C. Cabaleiro, J. C. Pichel e F. F. Rivera, 3DyRM: a dynamic roofline model including memory latency information, in The Journal of Supercomputing, vol. 70, n. 2, 26 marzo 2014, pp. 696–708, DOI:10.1007/s11227-014-1163-4, ISSN 0920-8542 .
- ^ Bruno da Silva, An Braeken, Erik H. D'Hollander e Abdellah Touhafi, Performance Modeling for FPGAs: Extending the Roofline Model with High-level Synthesis Tools, in Int. J. Reconfig. Comput., vol. 2013, 1º gennaio 2013, pp. 7:7–7:7, DOI:10.1155/2013/428078, ISSN 1687-7195 .
Bibliografia
modifica- Samuel W. Williams, Auto-tuning Performance on Multicore Computers (tesi Ph.D.), University of California at Berkeley, 2008.
- Samuel Williams, Andrew Waterman e David Patterson, Roofline: An Insightful Visual Performance Model for Multicore Architectures, in Commun. ACM, vol. 52, n. 4, 1º aprile 2009, pp. 65–76, DOI:10.1145/1498765.1498785, ISSN 0001-0782 .
Collegamenti esterni
modifica- (EN) Samuel W. Williams, The Roofline Model: A Pedagogical Tool for Auto-tuning Kernels on Multicore Architectures (PDF), su crd.lbl.gov, 2008. URL consultato il 21 giugno 2016.
- (EN) Applying the Roofline Model, su spiral.net. URL consultato il 21 giugno 2016.
- (EN) Extending the Roofline Model: Bottleneck Analysis with Microarchitectural Constraints, su spiral.net. URL consultato il 21 giugno 2016.
Tool disponibili
modifica- (EN) Roofline Model Toolkit, su bitbucket.org. URL consultato il 21 giugno 2016.
- (EN) Yu Jung Lo, Samuel Williams e Brian Van Straalen, Roofline Model Toolkit: A Practical Tool for Architectural and Program Analysis, in High Performance Computing Systems. Performance Modeling, Benchmarking, and Simulation, Springer International Publishing, 16 novembre 2014, pp. 129–148, DOI:10.1007/978-3-319-17248-4_7, ISBN 978-3-319-17247-7. URL consultato il 21 giugno 2016.
- (EN) Perfplot, su github.com. URL consultato il 21 giugno 2016.
- (EN) Extended Roofline Model, su github.com. URL consultato il 21 giugno 2016.
- (EN) Intel Advisor - Roofline model (programma di accesso anticipato), su software.intel.com. URL consultato il 21 giugno 2016.