Rejection sampling

In analisi numerica e in statistica computazionale, rejection sampling è una tecnica di base utilizzata per generare osservazioni da una distribuzione . È anche comunemente chiamato il metodo di acceptance-rejection o "algoritmo di accept-rejection".

Rejection sampling si basa sul fatto che, per campionare una variabile casuale in una dimensione, si può eseguire un campionamento uniformemente casuale del grafico cartesiano bidimensionale e mantenere i campioni nella regione sotto il grafico della sua funzione di densità.[1][2][3] Si noti che questa proprietà può essere estesa a funzioni in N-dimensioni.

Descrizione

modifica

Per visualizzare la motivazione alla base del rejection sampling, immagina di rappresentare graficamente la funzione di densità di una variabile casuale su una grande tavola rettangolare e di lanciare delle freccette. Supponiamo che le freccette siano distribuite uniformemente attorno al tabellone. Ora rimuovi tutte le freccette che si trovano al di fuori dell'area sotto la curva. I dardi rimanenti saranno distribuiti uniformemente all'interno dell'area sotto la curva e le posizioni lungo l'asse x di queste frecce saranno distribuite in base alla densità della variabile casuale. Questo perché c'è più spazio per le freccette per atterrare dove la curva è più alta e quindi la densità di probabilità è maggiore.

L'esempio appena descritto è una particolare forma di rejection sampling in cui la proposal distribution è uniforme (quindi il suo grafico è un rettangolo). La forma generale di rejection sampling presuppone che la tavola dell'esempio precedente non sia necessariamente rettangolare ma sia modellata secondo una certa distribuzione dalla quale il campionamento risulta facile (ad esempio, utilizzando il campionamento di inversione) e che sia almeno almeno alta come il punto più alto della distribuzione dalla quale vogliamo campionare. Se ciò non è vero, ci potrebbero essere parti dell'area che vogliamo campionare che non potranno essere raggiunte. Rejection sampling funziona come segue:

  1. Campiona un punto sull'asse x dalla proposal distribution.
  2. Traccia una linea verticale in questa posizione x, fino alla curva della proposal distribution.
  3. Campiona uniformemente lungo questa linea da 0 al massimo della funzione di densità di probabilità. Se il valore campionato è maggiore del valore della distribuzione desiderata su questa linea verticale, tornare al punto 1.

Questo algoritmo può essere utilizzato per campionare dall'area sotto qualsiasi curva, indipendentemente dal fatto che l'integrale della funzione abbia valore 1. In effetti, il ridimensionamento di una funzione con una costante non ha alcun effetto sulle posizioni x campionate. Pertanto, l'algoritmo può essere utilizzato per campionare da una distribuzione la cui costante di normalizzazione è sconosciuta, che è comune nella statistica computazionale.

Come semplice esempio geometrico, supponiamo di voler generare un punto casuale all'interno del cerchio unitario. Il primo step è generare un punto candidato   dove   e   sono indipendenti e uniformemente distribuiti tra -1 e 1. Se   allora il punto è all'interno del cerchio unitario ed è accettato, altrimenti è rifiutato e viene generato un nuovo candidato.

Un esempio più complicato utilizzato per generare in modo efficiente numeri pseudocasuali normalmente distribuiti è l'algoritmo ziggurat.

Algoritmo

modifica

L'algoritmo di rejection sampling genera valori di campionamento da una distribuzione target   con funzione di densità di probabilità arbitraria   utilizzando una proposal distribution   con densità di probabilità  .

L'algoritmo (usato da John von Neumann e risalente a Buffon e al suo ago) per ottenere un campione dalla distribuzione   con densità   utilizzando campioni dalla distribuzione   con densità   è il seguente:

  • Campiona   dalla distribuzione  e un campione   a partire da   (distribuzione uniforme sull'intervallo  ).
  • Controlla se   con   sul supporto di  :
    • se ciò vale, accetta   come un campione tratto da  ;
    • in caso contrario, rifiuta il valore di   e torna allo step precedente (fase di campionamento).

Svantaggi

modifica

Il problema principale dell'algoritmo di rejection sampling è che può generare un numero molto elevato di campioni che poi vengono scartati, soprattutto nel caso in cui la funzione campionata è concentrata in una certa regione. Per molte distribuzioni, questo problema può essere risolto utilizzando una versione adattiva dell'algoritmo (vedi adaptive rejection sampling). In altre dimensioni, è necessario utilizzare approcci differenti, come per esempio metodi Markov Chain Monte Carlo, tra i quali Metropolis sampling o Gibbs sampling.

  1. ^ George Casella, Christian P. Robert e Martin T. Wells, Generalized Accept-Reject sampling schemes, Institute of Mathematical Statistics, 2004, pp. 342–347, DOI:10.1214/lnms/1196285403, ISBN 9780940600614.
  2. ^ Radford M. Neal, Slice Sampling, in Annals of Statistics, vol. 31, n. 3, 2003, pp. 705–767, DOI:10.1214/aos/1056562461.
  3. ^ Christopher Bishop, 11.4: Slice sampling, in Pattern Recognition and Machine Learning, Springer, 2006, ISBN 978-0-387-31073-2.

Voci correlate

modifica