Correlazione spuria
In statistica la correlazione spuria è un problema che nasce nell'ambito delle analisi che calcolano la correlazione o effettuano una regressione, quando non è rispettata l'assunzione che le osservazioni sono indipendenti e identicamente distribuite.
Tale problema si presenta frequentemente (ma non esclusivamente) nell'effettuare regressioni con osservazioni provenienti da serie storiche.
Supponiamo che ci sia una correlazione fra A e B. Escludendo le coincidenze, ci sono tre tipi possibili di relazione:
- Quando A è presente, B è osservato. (A causa B.)
- Quando B è presente, A è osservato. (B causa A.)
- O
- Quando C è presente, sia A che B sono osservati. (C è causa sia di A che di B.)
Nell'ultimo caso c'è una correlazione spuria fra A e B. In un modello a regressione dove A è ricondotta a B, ma in realtà è C il vero fattore causale di A, questa scelta erronea di variabile indipendente (B invece di C) è chiamata errore di specificazione.
Storia
modificaLa correlazione spuria venne descritta nel 1926 da George Udny Yule in Why Do We Get Some Nonsense Correlations Between Time Series? A Study in Sampling and the Nature of Time Series, dopo aver notato in uno studio una correlazione lineare positiva tra percentuale di matrimoni con rito religioso e tasso di mortalità.
Nel 1986 Peter Phillips affrontò più in dettaglio il problema, come pure Clive W. J. Granger che vinse il premio Nobel per l'economia nel 2003 avendo introdotto agli inizi degli anni '80 il concetto di cointegrazione.
Lo studio sul trend delle variabili invece venne studiato da David Alan Dickey e Wayne A. Fuller, che crearono appunto il test di Dickey-Fuller.
Descrizione
modificaRilevando anno dopo anno il numero di matrimoni e il numero di rondini in cielo, si può osservare ad esempio una forte correlazione tra i due fenomeni, il che non è dovuto al fatto che uno dei due influenza l'altro, ma semplicemente al fatto che in certi paesi le rondini compaiono durante le loro migrazioni in primavera ed autunno che sono pure i periodi preferiti dalle coppie nello scegliere il giorno delle nozze.
In altri termini se due fenomeni risultano statisticamente correlati tra loro, non vuol dire necessariamente che tra di essi sussista un legame diretto di causa-effetto, potendo essere tale correlazione del tutto casuale (cioè spuria) ovvero dipendente da una terza variabile in comune, in assenza di meccanismo logico-causale plausibile che li metta in relazione tra loro.
È possibile rimediare a questo ordine di problemi mediante la misura e la comparazione della diversa strettezza delle correlazioni, se esistono sufficienti basi statistiche.