Distanza di Cook

misura dell'influenza di un'osservazione in un'analisi di regressione

La distanza di Cook, introdotta nel 1977 dallo statistico statunitense Ralph Dennis Cook,[1][2] è una funzione comunemente usata per stimare l'influenza di un singolo punto in un'analisi di regressione ai minimi quadrati.[3]

Punti con elevato residuo (outlier) o elevato leverage possono distorcere il risultato e l'accuratezza di un'analisi di regressione. La distanza di Cook misura l'effetto causato sull'analisi dalla rimozione di un certo dato, e nell'analisi con il metodo dei minimi quadrati ordinario può essere usata per indicare punti ad alta influenza, di cui sarebbe importante controllare la validità, o per individuare regioni dello spazio nelle quali sarebbe necessario acquisire più dati.

Definizione

modifica

Un modello di regressione può essere definito come

 

dove   è il termine di errore,   è la matrice dei coefficienti,   il numero di variabili indipendenti, e   è la matrice del modello. Lo stimatore dei minimi quadrati è  , e di conseguenza la risposta predetta per la media di   è

 

dove   è la matrice di proiezione. L' -esimo elemento della diagonale di  , dato da  ,[4] è noto come leverage dell'  -esima osservazione. Analogamente, l'  -esimo elemento del vettore dei residui   è indicato con  .

La distanza di Cook   dell'osservazione   è definita come la somma dei cambiamenti nel modello di regressione quando l'osservazione   è rimossa dall'analisi[5]

 

dove   è la risposta ottenuta escludendo l' -esima osservazione, e   è l'errore quadratico medio del modello di regressione.[6] Equivalentemente, la distanza di Cook può essere espressa come funzione del leverage[5]

 

Determinazione di osservazioni ad alta influenza

modifica

Vi sono diverse opinioni riguardo al valore di soglia da usare per stabilire quali osservazioni hanno influenza elevata sull'analisi. Una regola del pollice che richiede   è usata da alcuni autori,[7] mentre altri autori suggeriscono  , dove   è il numero di osservazioni.[8]

  1. ^ R. Dennis Cook, Detection of Influential Observations in Linear Regression, in Technometrics, vol. 19, n. 1, American Statistical Association, February 1977, pp. 15–18, DOI:10.2307/1268249, JSTOR 1268249, MR 0436478.
  2. ^ R. Dennis Cook, Influential Observations in Linear Regression, in Journal of the American Statistical Association, vol. 74, n. 365, American Statistical Association, March 1979, pp. 169–174, DOI:10.2307/2286747, JSTOR 2286747, MR 0529533.
  3. ^ William Mendenhall e Terry Sincich, A Second Course in Statistics: Regression Analysis, 5th, Upper Saddle River, NJ, Prentice-Hall, 1996, p. 422, ISBN 0-13-396821-9.
    «A measure of overall influence an outlying observation has on the estimated   coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...»
  4. ^ Fumio Hayashi, Econometrics, Princeton University Press, 2000, pp. 21–23.
  5. ^ a b Cook's Distance, su se.mathworks.com.
  6. ^ Statistics 512: Applied Linear Models (PDF), in Purdue University. URL consultato il 4 giugno 2018 (archiviato dall'url originale il 30 novembre 2016).
  7. ^ R. Dennis Cook e Sanford Weisberg, Residuals and Influence in Regression, New York, NY, Chapman & Hall, 1982, ISBN 0-412-24280-X.
  8. ^ Kenneth A. Bollen e Robert W. Jackman, Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases, in John Fox e J. Scott Long (a cura di), Modern Methods of Data Analysis, Newbury Park, CA, Sage, 1990, pp. 257–91, ISBN 0-8039-3366-5.

Bibliografia

modifica

Voci correlate

modifica
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica