Analisi delle serie storiche
L'analisi delle serie storiche raggruppa una serie di metodi statistici atti a indagare una serie storica, determinare il processo alla base della stessa e a trarre previsioni. Secondo l'approccio tradizionale, si assume che il processo abbia una parte deterministica, che consente di scomporlo in componenti tendenziali, cicliche e/o stagionali, e che la differenza tra i dati teorici del modello deterministico ed i dati osservati sia attribuibile ad una componente casuale residuale. Secondo l'approccio moderno, invece, si assume che il processo descritto sia stato generato da un processo stocastico descrivibile mediante un modello probabilistico di tipo parametrico.
Obiettivi
modificaL'analisi di una serie storica può avere diversi obiettivi:
- descrivere sinteticamente l'andamento nel tempo di un fenomeno; il grafico di una serie, in particolare, mette facilmente in evidenza sia eventuali regolarità, sia valori anomali;
- spiegare il fenomeno, individuando il suo meccanismo generatore ed eventuali relazioni con altri fenomeni;
- filtrare la serie; con ciò si intende la scomposizione della serie stessa nelle sue componenti non osservabili;
- prevedere l'andamento futuro del fenomeno.
Operazioni preliminari
modificaPrima di qualsiasi analisi, si esaminano i dati grezzi e si apportano spesso alcuni aggiustamenti per depurare i dati da discontinuità o dagli effetti della diversa durata degli intervalli o periodi di tempo considerati, oppure per tenere conto di valori anomali.
Discontinuità
modificaAlcuni esempi di discontinuità sono i cambiamenti di base nelle serie storiche di numeri indice, oppure la presenza di metriche diverse per le variabili economiche (prezzi correnti o costanti, diversi criteri di deflazione ecc.).
In tali casi, se non si riesce ad eliminare la discontinuità può essere preferibile limitare l'analisi a dati omogenei.
Effetti di calendario
modificaLa diversa durata dei periodi incide sui valori osservati nei medesimi periodi di anni diversi, producendo variazioni non ascrivibili all'andamento del fenomeno; ad esempio, in serie mensili di dati di produzione, le variazioni nei dati grezzi dipendono in parte solo dal numero dei giorni lavorativi nei diversi mesi. Si possono eliminare tali perturbazioni in vari modi:
- aggregando i dati in periodi più lunghi, ad esempio passando da serie mensili a serie trimestrali o semestrali;
- passando a dati medi giornalieri, ossia sostituendo il dato mensile grezzo con il rapporto tra il valore osservato ed il numero di giorni rilevanti nel mese cui il valore si riferisce; indicando con ym il valore osservato nel mese m e con Nm il numero dei giorni rilevanti (ad esempio, il numero di giorni lavorativi) nel mese considerato:
- applicando coefficienti correttivi, ad esempio sostituendo il valore mensile ym con un valore "aggiustato" yAGm, pari al prodotto del valore grezzo per il rapporto tra la media mensile dei giorni rilevanti in tutto l'anno ed il numero di giorni del mese cui il valore si riferisce:
Valori anomali
modificaSi possono distinguere due categorie di valori anomali (detti anche outlier):
- si ha una brusca variazione nella serie in un dato istante, dopo il quale però la serie stessa ritorna immediatamente (cosiddetto outlier additivo) o gradualmente (cosiddetto cambiamento temporaneo) all'andamento precedente;
- si ha una brusca variazione che permane nel tempo, provocando un cambiamento del livello o dello stesso andamento della serie (ad esempio, il PIL della Germania è salito di livello dopo la riunificazione del 1990).
Nel primo caso si preferisce ignorare il valore anomalo, eventualmente sostituendolo con una media di valori immediatamente precedenti e successivi, nel secondo è preferibile spezzare la serie ed analizzare separatamente i dati anteriori e posteriori alla variazione.
Correlogramma
modificaSi usa spesso visualizzare il correlogramma della serie, al fine di individuare l'eventuale prevalenza di una componente tendenziale, stagionale o stocastica.
Approccio tradizionale
modificaIn generale, si assume che i dati in serie storica relativi ad un fenomeno Y siano generati da un processo del tipo:
dove f(t) genera una sequenza completamente deterministica (parte sistematica della serie) e {ut} è una sequenza di variabili aleatorie che obbediscono ad una qualche legge di probabilità (parte stocastica della serie).
Nell'approccio tradizionale si assume che esista una "legge" di evoluzione temporale del fenomeno, rappresentata da f(t), e che i residui (differenze tra valori teorici e valori osservati) siano dovuti al caso e, pertanto, siano assimilabili a errori accidentali. I residui vengono normalmente indicati con εt ed intesi come variabili aleatorie indipendenti, identicamente distribuite, con media nulla e varianza costante (nell'approccio moderno, invece, si ipotizza che la parte sistematica manchi o sia già stata eliminata, mediante stime o altri modelli, e si studia la componente stocastica ut).
Si ritiene, inoltre, che la parte sistematica sia la risultante di tre componenti non direttamente osservabili:
- il trend (o componente tendenziale) è la tendenza di fondo del fenomeno considerato, spesso espressa mediante una funzione polinomiale di grado non troppo elevato;
- il ciclo (o componente congiunturale) è l'alternanza di fluttuazioni di segno diverso intorno al trend (v. anche ciclo economico);
- la stagionalità (o componente stagionale) è costituita da variazioni che si riscontrano con analoga intensità negli stessi periodi di anno in anno, ma con intensità diversa nel corso di uno stesso anno (ad esempio, la produzione cala tutti gli anni in estate a seguito della chiusura per ferie di molte aziende, ma aumenta tutti gli anni in prossimità del Natale per effetto dei maggiori consumi).
La componente accidentale è data dai residui εt. Ad esempio, se si dispone di dati trimestrali, se si stima che i dati sono prodotti da un trend di crescita lineare del tipo:[1]
se si individua una componente stagionale che provoca un aumento nel secondo e nel quarto trimestre ed una diminuzione nel primo e nel terzo:
(dove le Qi sono variabili che assumono il valore 1 nell'i-esimo trimestre e 0 negli altri), le differenze tra i valori osservati yt ed i valori stimati sono:
Modelli di combinazione delle componenti
modificaAlcuni tipici modelli tradizionali sono:
- modello additivo: ;
- modello moltiplicativo: ;
- modello misto: ;
dove Tt è il valore del trend al tempo t, Ct è il valore del ciclo, St quello della stagionalità e εt la componente accidentale.
Il modello moltiplicativo può essere trasformato in additivo usando i logaritmi:
- ;
Il ciclo ha una periodicità pluriennale. Per questo motivo, nelle analisi di breve/medio periodo (dette congiunturali) la componente tendenziale e quella ciclica vengono spesso considerate come un tutt'uno e si hanno modelli del tipo:
dove TCt è una componente detta "trend-ciclo".
Trend lineare o linearizzabile nei parametri
modificaSi dice lineare nei parametri un trend polinomiale del tipo:
in quanto i parametri da stimare, α0...αp, sono tutti di primo grado.
Si dice invece linearizzabile nei parametri un trend del tipo:
idoneo a rappresentare fenomeni che aumentano (α1 > 0) o diminuiscono (α1 < 0) secondo una progressione geometrica, e che può essere linearizzato come segue:
Nel caso di dati mensili o trimestrali, si può tenere conto della componente stagionale, come già sopra accennato, mediante le cosiddette variabili dummy (variabili fittizie). Nel caso di dati mensili si usano 12 variabili Mi che valgono 1 nell'i-esimo mese e 0 negli altri; nel caso di dati trimestrali si usano 4 variabili Qi che valgono 1 nell'i-esimo trimestre e 0 negli altri. Ad esempio, un modello lineare additivo con componente stagionale per dati trimestrale è del tipo:
dove:
- α rappresenta l'intercetta con l'asse delle ordinate;
- β rappresenta l'incremento assoluto di Yt per ogni unità di tempo;
- γ1...γ4 sono i parametri delle variabili dummy.
Se si ritiene di poter assumere un trend lineare o linearizzabile, i parametri possono essere facilmente stimati mediante regressione lineare. Si deve solo usare qualche accorgimento se si usano variabili dummy. Queste infatti introducono multicollinearità nei dati e, pertanto, non si possono stimare insieme l'intercetta α ed i parametri delle variabili dummy (γi).[2] Si usa quindi stimare solo i parametri delle variabili dummy, oppure solo l'intercetta e tre dei parametri delle variabili dummy; ad esempio, si assume il modello:
Una volta ottenuta la stima per i parametri asteriscati, si risale all'intera serie dei parametri con una semplice trasformazione che si basa sulle uguaglianze:
- (l'intercetta ottenuta "incorpora" la variabile non stimata);
- (se si calcola una nuova intercetta, minore di quella ottenuta, il grafico "si abbassa"; si deve quindi sommare la differenza ai parametri delle variabili dummy per "rialzare" il grafico);
- (gli effetti stagionali si compensano tra loro).
Da esse si ottiene:
che consente di calcolare i parametri α, γ1, γ2, γ3 e γ4 sulla base di α*, γ*1, γ*2, γ*3.
Valutazione del modello e previsioni
modificaIn generale, si usa valutare l'adattamento del modello ai dati osservati si usa il coefficiente di determinazione R2. Tuttavia, aumentando il grado del polinomio interpolante l'adattamento migliora, ma diventa più arduo interpretare i parametri, il cui numero aumenta col grado.
Si usa quindi un coefficiente "corretto":
dove n è il numero delle osservazioni e p il numero dei parametri (compresa l'intercetta) e il cui valore aumenta se aumenta R2, ma diminuisce se aumenta p.
Si verifica anche il correlogramma dei residui, che devono risultare oscillanti entro un banda ristretta.
Se l'adattamento è buono, il modello può essere utilizzato per previsioni. Ad esempio, se si dispone di 80 rilevazioni trimestrali dal primo trimestre 1989 al quarto trimestre 2008, se si è ottenuto un buon adattamento per la stima:
- la previsione per il primo trimestre 2009 è: 200+1.5×81-4×Q1=200+121.5-4=317.5 (Q2 = Q3 = Q4 = 0 per il primo trimestre);
- la previsione per il secondo trimestre 2009 è: 200+1.5×82+4×Q2=200+123+4=327 (Q1 = Q3 = Q4 = 0 per il secondo trimestre).
Trend non linearizzabile nei parametri
modificaSe il fenomeno osservato presenta una fase di crescita seguita poi da una progressiva decelerazione, si possono ipotizzare trend come i seguenti:
- curva esponenziale modificata: ;
- curva logistica: ;
- curva di Gompertz: ;
che presentano un asintoto orizzontale in quanto tendono ad α quando t tende all'infinito.
In casi come questi (dinamica delle popolazioni, evoluzione della domanda di beni durevoli ecc.) la linearizzazione non è possibile e si ricorre, pertanto, alla regressione non lineare.
Medie mobili
modificaSe l'andamento del fenomeno appare irregolare, si preferisce individuare la componente tendenziale in modo empirico, eliminando le componenti stagionale e/o accidentale mediante medie mobili.
In particolare, per eliminare la componente stagionale presente in dati trimestrali si potrebbe usare una media mobile a 4 termini:
oppure:
In entrambi i casi si userebbero valori che, essendo la media dei valori osservati in quattro trimestri successivi, non risentono della componente stagionale.
Le medie di un numero pari di termini, tuttavia, tendono ad esprimere il valore del fenomeno ad un tempo intermedio rispetto a quelli osservati (intermedio tra t–1 e t nel caso di M1, tra t e t+1 nel caso di M2).
Si preferisce quindi comporre le medie M1 e M2 in una media mobile a cinque termini centrata sul tempo t:
La serie delle medie mobili costituisce il trend (o trend-ciclo), che può poi essere studiato con altri metodi. La sua individuazione, comunque, consente il calcolo di una stagionalità lorda, che incorpora una parte accidentale; indicando con il dato osservato al tempo t e con il trend stimato con le medie mobili, si ha:
- oppure
secondo che si preferisca un modello additivo o moltiplicativo.
Nelle analisi basate sulla regressione si ottengono coefficienti di stagionalità costanti. Nelle analisi basate sulle medie mobili, invece, si può scegliere tra:
- modelli a stagionalità costante: si calcola la media, per ciascun trimestre dei fattori di stagionalità lorda e si ottengono così i fattori di stagionalità netta Si, che vengono poi corretti in modo da assicurare che si compensino tra loro, quindi in modo che la loro somma sia 0 (modelli additivi) o il loro prodotto sia 1 (modelli moltiplicativi);
- modelli a stagionalità variabile: si sostituiscono, per ciascun trimestre, i fattori di stagionalità lorda con una loro media mobile (normalmente a 3 termini), oppure si usa un "trend della stagionalità".
Una volta individuati fattori di stagionalità netta, si calcolano i residui:
- oppure
secondo che si stia seguendo l'approccio additivo o quello moltiplicativo, quindi si verifica (in prima istanza con un correlogramma) che i residui abbiano media 0 e varianza costante.
Livellamento esponenziale
modificaQuando si usano le medie mobili, si perdono alcuni dei valori iniziali e finali della serie storica (ad esempio, se si hanno dati dal tempo 1 al tempo 80, con una media mobile a 5 termini si ottengono medie dal tempo 3 al tempo 78). Ciò rappresenta uno svantaggio se si mira soprattutto a formulare previsioni, in quanto vengono a mancare i termini più vicini a quelli da stimare. Si potrebbe pensare di ovviare al problema con medie mobili non centrate ed asimmetriche, ad esempio del tipo:
- oppure:
Nella pratica, tuttavia, si preferiscono approcci che generalizzano quanto appena ipotizzato.
Livellamento esponenziale semplice
modificaNel livellamento esponenziale semplice si muove dalla media degli n valori osservati:
e la si trasforma in una media ponderata con pesi esponenzialmente crescenti (minori per i valori iniziali, maggiori per quelli finali) la cui somma sia 1. Si attribuisce quindi un peso α compreso tra 0 e 1 all'ultimo termine, il peso (1 – α) al penultimo, (1 – α)2 al terzultimo e così via, e si ha (v. serie geometrica):
Si sostituisce quindi la serie osservata yt con la serie livellata:
in cui α, il peso assegnato all'ultimo valore osservato, viene detto costante di livellamento.[3]
Per il calcolo risultano più comode le seguenti formulazioni ricorsive:
- (Roberts, 1959)[4]
oppure:
- (Hunter, 1986)[5]
Il valore iniziale della serie livellata viene calcolato in vari modi: si pone uguale al primo valore osservato, oppure alla media di tutti i valori osservati o di una loro parte (i primi 4 o 5, oppure la loro prima metà). Si tratta di convenzioni che non alterano il risultato finale (la previsione per il tempo n + 1), proprio perché ai primi termini della serie sono attribuiti pesi molto bassi.
Le formule di Roberts e di Hunter differiscono per l'interpretazione di ln, l'ultimo valore calcolato:
- nel primo caso viene inteso come valore previsto, quindi come ;[6]
- nel secondo caso viene inteso come livellamento del valore osservato, quindi come , sulla cui base si effettua la previsione mediante ripetizione della formula: .
In ogni caso, è sufficiente che la serie osservata non sia troppo breve perché si ottengano gli stessi valori per .
Quanto alla costante di livellamento α, essa può essere scelta in modo che minimizzi i quadrati degli scarti tra i valori osservati e quelli livellati, oppure secondo gli obiettivi dell'indagine; un valore elevato (prossimo a 1) conferisce maggiore importanza agli ultimi valori osservati, un valore basso privilegia invece l'andamento medio del fenomeno.
È piuttosto importante sottolineare che il livellamento esponenziale semplice conduce ad una previsione costante. Infatti, considerando la formula di Roberts, si ha:
e così via. Si tratta quindi di un metodo utilizzabile solo per serie senza trend.
I metodi di Holt-Winters
modificaUn primo modo per tenere conto di un trend consiste nell'introduzione di una deriva d (drift in inglese) che modifichi i valori livellati secondo grandezze variabili col tempo; ad esempio:
Sono usati soprattutto i metodi di Holt-Winters, così detti dai nomi di coloro che li hanno introdotti.
Un primo modello tiene conto solo del trend, ipotizzando che al tempo t il fenomeno possa essere approssimato mediante una retta del tipo:
con intercetta lt e pendenza dt. Si definiscono le seguenti relazioni:[7]
La prima (analogamente a quanto avviene nel livellamento esponenziale semplice) può essere vista come una media ponderata tra il valore osservato e la previsione calcolata al tempo precedente; la seconda come una media ponderata tra la differenza tra le previsioni ai tempi t e precedente e la pendenza calcolata al tempo precedente (attribuire peso 1 a quest'ultima equivarrebbe ad assumere un trend lineare, ovvero una costanza della pendenza).
Il modello viene esteso per tenere conto della stagionalità, inserendo un ulteriore peso γ. Si hanno un modello stagionale additivo:
dove st è un fattore di stagionalità è p la sua periodicità (4 per dati trimestrali, 12 per dati mensili), e un modello stagionale moltiplicativo:
Si tratta di modelli molto flessibili, in quanto consentono di tenere conto di trend non polinomiali e di stagionalità non costanti. Quanto alla scelta di α, β e γ, anche in questo caso (ma con ovvia maggiore complessità) si possono cercare i valori che minimizzano i quadrati degli scarti o ci si può regolare secondo gli obiettivi dell'analisi.
Valutazione della qualità delle previsioni
modificaIndicando con T il tempo del più recente valore considerato nel livellamento di una serie, le previsioni, i valori poi osservati in tempi successivi a T e le loro differenze (errori di previsione) si indicano, rispettivamente, con:
Si usano le seguenti misure di qualità:
- la media degli errori assoluti (MAE, Mean Absolute Error, errore medio assoluto); scelto un orizzonte di previsione k, la verifica viene condotta per il valore previsto al tempo T per il tempo T + k, poi per il valore previsto al tempo T + 1 (grazie alla disponibilità di un nuovo valore osservato) per il tempo T + 1 + k; si ha quindi:[8]
- la media dei quadrati degli errori (MSE, Mean Squared Error in inglese, errore quadratico medio):
- la radice quadrata del precedente (RMSE, Root Mean Square Error in inglese):
Si usa anche il confronto tra i "punti di svolta" (test di Kendall). Per "punto di svolta" si intende un punto in cui una serie da ascendente diventa discendente o viceversa. Si contano i punti di svolta presenti nella serie rilevata ed in quella stimata o livellata e si calcolano:
- indice di errore di prima specie: il rapporto tra il numero dei punti di svolta non coincidenti perché presenti solo nella serie stimata ed il numero totale dei punti di svolta della serie stimata;
- indice di errore di seconda specie: il rapporto tra il numero dei punti di svolta non coincidenti perché presenti solo nella serie rilevata ed il numero totale dei punti di svolta della serie rilevata.
Da notare che, dal momento che il modello viene ricalcolato all'aumentare di s, tutte le misure citate servono a stimare la bontà dell'approccio seguito, non quella dell'adattamento ai dati.
Approccio moderno
modificaDefinizione formale di serie storica
modificaSi ricordi anzitutto che una variabile aleatoria può essere definita come una funzione misurabile a valori reali su uno spazio probabilistico: X:
Dove:
- : spazio degli eventi
- F sigma-algebra di
- P probabilità definita di
- B(R) sigma-algebra di Borel definita sull'insieme dei numeri reali R
- probabilità indotta da X su (R,B(R))
Stante questa premessa, si può definire un processo stocastico come una successione di variabili aleatorie indicizzate da un parametro. Nell'analisi delle serie storiche, questo parametro è il tempo, che indichiamo con t T, con T spazio parametrico, che si può considerare discreto (ipotesi usuale, se si considerano i singoli giorni, o mesi, o anni) oppure continuo.
Da qui si può derivare la nozione di serie storica, che sarà la realizzazione finita di un processo stocastico, indicata con la notazione , dove N«
Casi particolari di processi stocastici
modifica- t e sono variabili: è un processo stocastico propriamente detto
- t variabile e fissato tale che = , è la cosiddetta traiettoria del processo stocastico
- t fissato, variabile e t= , è una variabile aleatoria
- tutti i parametri fissati: è un numero reale
- dati e fissati si ha una serie storica propriamente detta.
Note
modifica- ^ Si usa normalmente il "cappuccio" ^ per indicare che gli sono dati stimati e per distinguerli dai dati osservati .
- ^ Si usa ovviamente la regressione lineare multipla. Il modello è del tipo:
- ^ Alcuni autori chiamano costante di livellamento la quantità δ = (1 – α).
- ^ S. W. Roberts, «Control chart test based on geometric moving averages», Technometrics, 1959, vol. 1, pp. 239-250 (cfr. NIST Engineering Statistics Handbook, sezione 6.3.2.4).
- ^ J. S. Hunter, «The Exponentially Weighted Moving Average», Journal of Quality Technology, 1986, vol. 18, pp. 203-210 (cfr. NIST Engineering Statistics Handbook, sezione 6.4.3.1).
- ^ A rigore, il valore previsto è . Tuttavia, poiché nell'approccio tradizionale si assume che le variazioni accidentali abbiano media nulla, quindi valore atteso nullo, si ha .
- ^ Anche qui, come nel caso del livellamento esponenziale semplice ed in quello del metodo Holt-Winters con stagionalità, alcuni autori invertono i ruoli dei fattori α e (1 – α), β e (1 – β), γ e (1 – γ).
- ^ In altri termini, se si dispone di dati trimestrali che giungono al 4º trimestre dell'anno X, non si verifica la qualità delle previsioni per i successivi n trimestri, in quanto il modello viene tarato per effettuare previsioni a brevissimo o a meno breve termine (nel caso del livellamento esponenziale semplice, ad esempio, un α prossimo a 1 si presta a previsioni a brevissimo termine, un α piccolo si presta meglio a previsioni a meno breve termine). Si effettua quindi, ad esempio, la previsione per il 1º trimestre dell'anno X+1, poi, quando diventa disponibile il valore "vero" a tale data, si effettua la previsione per il 2º trimestre e così via. k è quindi costante.
Bibliografia
modifica- Estela Bee Dagum, Analisi delle serie storiche - modellistica, previsione e scomposizione, Milano, Springer Verlag, 2002. ISBN 88-470-0146-3.
- Tommaso Di Fonzo e Francesco Lisi, Serie storiche economiche, Roma, Carocci, 2005. ISBN 978-88-430-3423-9.
- Gary Koop, Logica statistica dei dati economici, Torino, UTET, 2001. ISBN 88-7750-735-7.