Quartetto di Anscombe

il Quartetto di Anscombe comprende quattro dataset per cui le più comuni statistiche descrittive risultano praticamente identiche, ma che una volta riprodotti su un grafico assumono un aspetto molto diverso tra loro.[1][2] Ciascun set di dati consiste in undici punti di coordinate (x,y).

Tutti e quattro gli insiemi di dati sono identici se valutati secondo alcune statistiche di base, ma una volta riportati su un grafico sono molto diversi.

Sono stati costruiti nel 1973 dallo statistico Francis Anscombe per dimostrare l'importanza di rappresentare graficamente i dati prima di analizzarli e l'effetto degli outlier sulle proprietà statistiche. Sostenne che il suo scopo era di attaccare l'idea diffusa tra gli statistici che "i calcoli numerici sono esatti, ma i grafici sono rozzi".[3]

Per tutti e quattro i set di dati le seguenti statistiche descrittive danno gli stessi valori:

Proprietà Valore Accuratezza
Media di x 9 esatta
Varianza di x 11 esatta
Media di y 7.50 alla seconda cifra decimale
Varianza di y 4.125 con uno scarto massimo di 0.003
Correlazione tra x e y 0.816 alla terza cifra decimale
Regressione lineare y = 3.00 + 0.500x
  • Il primo grafico di dispersione (in alto a sinistra) sembra rappresentare una semplice relazione lineare, corrispondente a due variabili correlate per cui y potrebbe essere modellata come una normale con media linearmente dipendente da x.
  • Nel secondo grafico (in alto a destra) anche se si può osservare un'ovvia relazione tra le due variabili, questa non è lineare, e l''indice di correlazione di Pearson non è rilevante (un metodo di regressione più flessibile e il corrispondente coefficiente di determinazione sarebbero più appropriati).
  • Nel terzo grafico (in basso a sinistra), la distribuzione è lineare, ma con un coefficiente di regressione differente da quello stimato, che è influenzato dall'unico outlier presente, sufficientemente significativo da alterare le stime e da abbassare il coefficiente di correlazione da 1 a 0.816. Una regressione lineare robusta sarebbe più efficace in questo caso.
  • Infine, il quarto grafico (in basso a destra) mostra un esempio di come un punto di leva sia spesso sufficiente a stabilire un elevato indice di correlazione, anche se le altre osservazioni non mostrano nessuna associazione tra le variabili.

Il quartetto è tuttora usato per illustrare l'importanza dell'approccio grafico a un insieme di dati prima di cominciarne l'analisi secondo un qualche tipo di relazione, e l'inadeguatezza delle proprietà statistiche di base per descrivere dei set di dati realistici.[4][5][6][7][8]

Seguono gli insiemi dei dati. I valori di x per i primi tre set di dati sono uguali.[3]

Quartetto di Anscombe
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

Successivamente è stata sviluppata una procedura per generare dei set di dati simili con statistiche identiche ma grafici distinti.[9]

  1. ^ Fabio Piccigallo, Non solo statistica: perché visualizzare i dati (il quartetto di Anscombe), su Data Storytelling, 23 ottobre 2018. URL consultato il 17 novembre 2024.
  2. ^ Fabio Piccigallo, Il Quartetto di Anscombe: un punto di svolta nella visualizzazione dei dati, su Data Storytelling, 30 ottobre 2023. URL consultato il 17 novembre 2024.
  3. ^ a b F. J. Anscombe, Graphs in Statistical Analysis, in American Statistician, vol. 27, n. 1, 1973, pp. 17–21.
  4. ^ Glenn Elert, Linear Regression, su The Physics Hypertextbook.
  5. ^ Philipp K. Janert, Data Analysis with Open Source Tools, O'Reilly Media, Inc., 2010, pp. 65–66, ISBN 0-596-80235-8.
  6. ^ Regression analysis by example, John Wiley and Sons, 2006, p. 91, ISBN 0-471-74696-7.
  7. ^ Statistical methods: the geometric approach, Springer, 1991, p. 418, ISBN 0-387-97517-9.
  8. ^ Edward R. Tufte, The Visual Display of Quantitative Information, 2nd, Cheshire, CT, Graphics Press, 2001, ISBN 0-9613921-4-2.
  9. ^ Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset, in American Statistician, vol. 61, n. 3, 2007, pp. 248–254, DOI:10.1198/000313007X220057.

Altri progetti

modifica

Collegamenti esterni

modifica