Quartetto di Anscombe
il Quartetto di Anscombe comprende quattro dataset per cui le più comuni statistiche descrittive risultano praticamente identiche, ma che una volta riprodotti su un grafico assumono un aspetto molto diverso tra loro.[1][2] Ciascun set di dati consiste in undici punti di coordinate (x,y).
Storia
modificaSono stati costruiti nel 1973 dallo statistico Francis Anscombe per dimostrare l'importanza di rappresentare graficamente i dati prima di analizzarli e l'effetto degli outlier sulle proprietà statistiche. Sostenne che il suo scopo era di attaccare l'idea diffusa tra gli statistici che "i calcoli numerici sono esatti, ma i grafici sono rozzi".[3]
Dati
modificaPer tutti e quattro i set di dati le seguenti statistiche descrittive danno gli stessi valori:
Proprietà | Valore | Accuratezza |
---|---|---|
Media di x | 9 | esatta |
Varianza di x | 11 | esatta |
Media di y | 7.50 | alla seconda cifra decimale |
Varianza di y | 4.125 | con uno scarto massimo di 0.003 |
Correlazione tra x e y | 0.816 | alla terza cifra decimale |
Regressione lineare | y = 3.00 + 0.500x |
- Il primo grafico di dispersione (in alto a sinistra) sembra rappresentare una semplice relazione lineare, corrispondente a due variabili correlate per cui y potrebbe essere modellata come una normale con media linearmente dipendente da x.
- Nel secondo grafico (in alto a destra) anche se si può osservare un'ovvia relazione tra le due variabili, questa non è lineare, e l''indice di correlazione di Pearson non è rilevante (un metodo di regressione più flessibile e il corrispondente coefficiente di determinazione sarebbero più appropriati).
- Nel terzo grafico (in basso a sinistra), la distribuzione è lineare, ma con un coefficiente di regressione differente da quello stimato, che è influenzato dall'unico outlier presente, sufficientemente significativo da alterare le stime e da abbassare il coefficiente di correlazione da 1 a 0.816. Una regressione lineare robusta sarebbe più efficace in questo caso.
- Infine, il quarto grafico (in basso a destra) mostra un esempio di come un punto di leva sia spesso sufficiente a stabilire un elevato indice di correlazione, anche se le altre osservazioni non mostrano nessuna associazione tra le variabili.
Il quartetto è tuttora usato per illustrare l'importanza dell'approccio grafico a un insieme di dati prima di cominciarne l'analisi secondo un qualche tipo di relazione, e l'inadeguatezza delle proprietà statistiche di base per descrivere dei set di dati realistici.[4][5][6][7][8]
Seguono gli insiemi dei dati. I valori di x per i primi tre set di dati sono uguali.[3]
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Successivamente è stata sviluppata una procedura per generare dei set di dati simili con statistiche identiche ma grafici distinti.[9]
Note
modifica- ^ Fabio Piccigallo, Non solo statistica: perché visualizzare i dati (il quartetto di Anscombe), su Data Storytelling, 23 ottobre 2018. URL consultato il 17 novembre 2024.
- ^ Fabio Piccigallo, Il Quartetto di Anscombe: un punto di svolta nella visualizzazione dei dati, su Data Storytelling, 30 ottobre 2023. URL consultato il 17 novembre 2024.
- ^ a b F. J. Anscombe, Graphs in Statistical Analysis, in American Statistician, vol. 27, n. 1, 1973, pp. 17–21.
- ^ Glenn Elert, Linear Regression, su The Physics Hypertextbook.
- ^ Philipp K. Janert, Data Analysis with Open Source Tools, O'Reilly Media, Inc., 2010, pp. 65–66, ISBN 0-596-80235-8.
- ^ Regression analysis by example, John Wiley and Sons, 2006, p. 91, ISBN 0-471-74696-7.
- ^ Statistical methods: the geometric approach, Springer, 1991, p. 418, ISBN 0-387-97517-9.
- ^ Edward R. Tufte, The Visual Display of Quantitative Information, 2nd, Cheshire, CT, Graphics Press, 2001, ISBN 0-9613921-4-2.
- ^ Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset, in American Statistician, vol. 61, n. 3, 2007, pp. 248–254, DOI:10.1198/000313007X220057.
Altri progetti
modifica- Wikimedia Commons contiene immagini o altri file su Quartetto di Anscombe
Collegamenti esterni
modifica- Department of Physics, University of Toronto
- Dynamic Applet realizzata in GeoGebra che ostra dati e statistiche e permette di trascinare i punti dell'elenco (set 5).