Quicksort

algoritmo di ordinamento dei dati
(Reindirizzamento da Quick sort)

Quicksort è un algoritmo di ordinamento ricorsivo in place non stabile. Si basa anch'esso, come il Merge Sort sul paradigma di Divide et Impera. L'idea dell'algoritmo può essere riassunta così:

  1. Ho una lista di elementi da ordinare.
  2. Faccio in modo di avere tutti gli elementi più piccoli di un certo elemento presente nella lista da un lato della lista e quelli più grandi dall'altro lato.
  3. Spezzo la lista nell'indice del valore che ho usato per i confronti.
  4. Itero per i due sottoinsiemi che ho trovato.
Quicksort
Quicksort in esecuzione su una lista di numeri. La linea blu è il valore del pivot.
ClasseAlgoritmo di ordinamento
Struttura datiVariabile
Caso peggiore temporalmente
Caso ottimo temporalmente
Caso medio temporalmente confronti
Caso peggiore spazialmenteDipende dalle implementazioni
OttimaleSpesso

Il Quicksort, termine che tradotto letteralmente in italiano indica ordinamento rapido, è l'algoritmo di ordinamento che ha, nel caso medio, prestazioni migliori tra quelli basati su confronto. È stato ideato da Charles Antony Richard Hoare nel 1961.

L'algoritmo quicksort fu ideato nel 1959 da Tony Hoare durante un viaggio nell'URSS, durante una sua visita alla Moscow State University. In quel periodo, Hoare lavorava a un progetto di traduzione automatica per il National Physical Laboratory. Durante il processo di traduzione si rese necessario ordinare le parole russe prima di consultare il dizionario Russo-Inglese che era registrato su un nastro magnetico e ordinato alfabeticamente.[1] Dopo aver capito che l'uso dell'insertion sort sarebbe stato troppo lento, concepì una nuova idea di algoritmo - il Quicksort. Scrisse il programma con Autocode relativa alla partizione ma non riuscì a gestire la parte relativa ai segmenti non ordinati. Tornato in Inghilterra, gli fu chiesto per lavoro di scrivere il codice di uno Shell sort - l'algoritmo di ordinamento più efficiente all'epoca. Hoare dichiarò al suo capo che conosceva un algoritmo più efficiente; il capo fece una scommessa, di sei pence, e perse. In seguito, Hoare venne a conoscenza del linguaggio ALGOL e della sua abilità di gestire la ricorsione; grazie ad esso, pubblicò il codice completo nella maggiore rivista scientifica di informatica del periodo, Communications of the Association for Computing Machinery.[2]

Algoritmo di base

modifica

L'idea base può esprimersi agevolmente in termini ricorsivi. Ad ogni stadio si effettua un ordinamento parziale di una sequenza di oggetti da ordinare. Assunto un elemento come perno dello stadio, si confrontano con esso gli altri elementi e si posizionano alla sua sinistra i minori e a destra i maggiori, senza tener conto del loro ordine. Dopo questo stadio si ha che il perno è nella sua posizione definitiva.

Successivamente si organizzano nuovi stadi simili nei quali si procede all'ordinamento parziale delle sottosequenze di elementi rimasti non ordinati, fino al loro esaurimento.

Lo pseudocodice per il Quicksort è:

Procedure Quicksort(A)
Input A, vettore a1, a2, a3 .. an
  begin
    if n ≤ 1 then return A
    else
      begin
        scegli un elemento pivot ak
        calcola il vettore A1 dagli elementi ai di A tali che i ≠ k e ai ≤ ak
        calcola il vettore A2 dagli elementi aj di A tali che j ≠ k e aj > ak
        A1 ← Quicksort(A1)
        A2 ← Quicksort(A2)
        return A1 · (ak) · A2;
      end

Specifica dell'algoritmo

modifica
 
Un'altra rappresentazione grafica dell'algoritmo Quicksort

Si vuole fornire una versione più dettagliata dell'algoritmo che specifichi la struttura dati utilizzata e il processo di partizione. L'obiettivo è quello di implementare la procedura mediante un procedimento che calcoli la sequenza ordinata attraverso scambi diretti tra i valori delle sue componenti, senza usare vettori aggiuntivi per mantenere risultati parziali della computazione. In questo modo lo spazio di memoria utilizzato è essenzialmente ridotto alle celle necessarie per mantenere il vettore di ingresso e per implementare la ricorsione.

Si rappresenta la sequenza di input mediante il vettore   componenti. Per ogni coppia di interi p,q tali che   denotiamo   . Il cuore dell'algoritmo è costituito dalla funzione che partiziona l'insieme, per comodità chiamiamo Partition(p,q). Questa procedura ripartisce gli elementi del vettore   rispetto al valore   della prima componente  ; questa funzione modifica quindi il valore delle componenti di   e restituisce un indice   che gode delle seguenti proprietà:

  1.   assume il valore  
  2.   contiene i valori minori o uguali ad   originariamente contenuti in  
  3.   contiene i valori maggiori di   originariamente contenuti in  

Rianalizzando l'algoritmo del quicksort prima esposto si comprende che la funzione Partition(A, p, q) è il fulcro delle operazioni. Nella versione qui presentata l'elemento pivot è fissato a  ; questo non è limitativo poiché il chiamante può scegliere un pivot diverso e posizionarlo in   prima di chiamare la funzione. Partition quindi effettua una scansione degli elementi dalla sinistra saltando quelli più piccoli del pivot e dalla destra saltando quelli più grandi; quindi scambia gli elementi che arrestano le scansioni e ricomincia. La scansione partita da destra si ferma su elementi minori o uguali al pivot (e quindi è bloccata dall'elemento pivot stesso), mentre quella partita da sinistra si interrompe quando arriva a un elemento maggiore del pivot. I puntatori utilizzati per la scansione quindi si possono incrociare, e quando l'incrocio è avvenuto la funzione ha completato il suo lavoro.

Oltre al vettore  , la funzione riceve i parametri   e   che rappresentano gli indici del sottovettore sul quale si opera la partizione (assumiamo sempre  ). Le altre variabili che compaiono nella procedura sono locali.

Function Partition(A, p, q)
begin
  i ← p
  j ← q
  while i ≤ j do
    begin
      while A[j] > A[p] do j ← j - 1
      while i ≤ j and A[i] ≤ A[p] do i ← i + 1
      if i < j then
         begin
           Scambia(A[i], A[j])
           i ← i + 1
           j ← j - 1
         end
    end
  Scambia(A[p], A[j])
  return j
end

Analisi delle prestazioni

modifica

Caso peggiore

modifica

Denotiamo con   il massimo numero di confronti tra elementi del vettore di ingresso eseguiti dall'algoritmo su input   di lunghezza  . È evidente che i vettori  e   della partizione possono essere calcolati mediante   confronti (dato che un elemento viene scelto come pivot). Inoltre la dimensione di  e   è data rispettivamente da   e  , per qualche  . Questo implica che per ogni

 :

 

mentre per  : 

Questa è l'equazione di ricorrenza per l'algoritmo in questione. Si vuole ora determinare il   esatto. Nel caso pratico questo valore sarà utile per capire il comportamento dell'algoritmo nel caso in cui si sceglie l'elemento massimo o minimo per il partizionamento. Infatti poiché   abbiamo che   e quindi per ogni   otteniamo:

 In questo modo abbiamo ottenuto che l'algoritmo nel caso peggiore ha un costo quadratico. Il caso peggiore si verifica quando lo sbilanciamento è totale, cioè quando l'algoritmo di partizionamento restituisce una partizione di lunghezza n-1 e una di lunghezza 0; in questo caso il tempo di esecuzione è Θ( ).

Se vogliamo evitare che la scelta del partizionamento ci conduca ad un tempo quadratico, è sufficiente scegliere come pivot l'elemento mediano della sequenza, per esempio tramite l'algoritmo QuickSelect. Questo consente di trovarci sempre ad avere due sequenze di   elementi, ottenendo quindi un tempo asintotico pari a   nel caso peggiore. Ad un'analisi più accurata, tuttavia, si verifica che la costante moltiplicativa è circa 24 (e non 1.39, come nel caso migliore). Per accorgersene è sufficiente scegliere il pivot seguendo questi passi:

  1. Costruire   quintuple: l'ultimo sottoarray può non essere una quintupla, ma un insieme più piccolo;
  2. Per ogni quintupla calcolare il mediano, effettuando in totale,   confronti, perché il mediano di 5 elementi può essere calcolato con al più 7 confronti;
  3. Ricavare un campione, ottenuto come mediano dei mediani delle quintuple;
  4. Calcolare il pivot come mediano dei mediani, impiegando un tempo pari a   (chiamata ricorsiva);
  5. Partiziona intorno al pivot:   confronti;
  6. Prosegui ricorsivamente:   (perché la chiamata viene effettuata un insieme con cardinalità pari, al più  ).

L'equazione di ricorrenza diventa:

 

che ha soluzione  , in particolare  . Esistono quindi soluzioni approssimate che in pratica evitano il caso pessimo pur non potendo garantire ciò.

Caso medio

modifica

Per lo studio nel caso medio si valuta il numero medio di confronti tra elementi del vettore di ingresso eseguiti dall'algoritmo, determinando di conseguenza l'ordine di grandezza del tempo medio di calcolo necessario per eseguire la procedura.

La complessità dell'algoritmo in questo caso è  .

Caso migliore

modifica

Il caso migliore si verifica quando l'algoritmo di partizionamento determina due sottoproblemi perfettamente bilanciati, entrambi di dimensione n/2; in questo caso il tempo di esecuzione è  , precisamente  .

Tipi di partizionamento

modifica

Esistono delle varianti del quicksort che si basano sulla differente scelta dell'elemento pivot all'interno della serie di dati da ordinare.

  • Non casuale (non random): in questa versione si sceglie come pivot l'elemento in ultima posizione evitando in questo modo il calcolo della scelta dei numeri casuali. Il caso pessimo è rappresentato da un vettore ordinato al contrario. Anche qualora venga scelto un altro elemento come pivot (ad es. il primo o quello di mezzo) si può trovare un caso pessimo.
  • Metodo della mediana: Il metodo della mediana di 3 è un tipico approccio che consente di migliorare i partizionamenti dell'array, evitando partizioni troppo sbilanciate, e consiste nell'effettuare il partizionamento scegliendo opportunamente il pivot nel sottoarray: in particolare si sceglie come pivot la mediana di un insieme di tre elementi selezionati a caso dal sottoarray. Anche in questo caso tuttavia esiste un caso pessimo ed ha complessità quadratica.
  • Casuale (random): Questa è la prima versione pubblicata del quicksort che si basa sulla scelta casuale dell'elemento pivot. Questo non permette di stabilire a tavolino quale sia il caso peggiore, che tuttavia si verificherà con probabilità  .

Come già menzionato in precedenza, tutte queste versioni si ottengono aggiungendo uno scambio prima della chiamata a Partition, per esempio:

  scegli a caso un intero k tra p e q
  Scambia (A[p], A[k])
  Partition (A, p, q)

Chiavi duplicate

modifica

Se nello stesso vettore esistono degli elementi ripetuti, è possibile sistemarli nella prima scansione che viene effettuata tramite la versione di Bentley - Mc Illroy del 1993. Questa versione prevede che, durante il processo di scansione (fase di partizionamento dell'algoritmo), gli elementi uguali al pivot vengano spostati immediatamente a fianco del pivot (a sinistra se provengono dalla parte sinistra, a destra se provengono dalla parte destra). In questo modo si avranno tre partizioni, una con gli elementi minori del pivot, una con gli elementi uguali e una con gli elementi maggiori del pivot.

La complessità dell'algoritmo non viene modificata.

Dimensione dello stack

modifica

L'algoritmo utilizza la ricorsione, che in casi di anomalie potrebbe portare a problemi di stack overflow. È possibile operare un processo di rimozione della ricorsione senza alterare le prestazioni utilizzando uno stack esterno che memorizza il "lavoro da fare" in forma di file parziali da ordinare. Ogni qualvolta si richiede un sottofile da ordinare è sufficiente estrarlo dalla stack mentre in seguito a un partizionamento i due file parziali generati possono essere inseritivi. Nell'implementazione ricorsiva (quelle viste sopra), lo stack viene gestito dal sistema contiene le stesse informazioni che si salveranno in questo stack esterno. Per un file casuale la massima dimensione dello stack è proporzionale a   anche se in casi degeneri lo stack può crescere proporzionalmente a N. Il caso peggiore è quello in cui il file risulta già ordinato. Questo problema è tanto sottile quanto reale: anche un programma ricorsivo utilizza (implicitamente) uno stack, per cui la degenerazione del quicksort per file di grandi dimensioni potrebbe causare una terminazione anomala del programma per mancanza di memoria disponibile. Ovviamente un comportamento del genere deve essere evitato soprattutto se si vuole inserire la routine in una libreria di programma. Non è facile dare garanzie che ciò non avvenga anche se non è difficile fare in modo che questi casi degeneri siano estremamente improbabili.

Per effettuare lo studio della dimensione dello stack si effettua la valutazione dello spazio di memoria necessario alla procedura del quicksort. Oltre alle n celle necessarie per contenere il vettore dei valori di ingresso, occorre utilizzare una certa quantità di spazio per mantenere la pila che implementa la ricorsione. Nel caso peggiore Quicksort(1,n) utilizza uno spazio   per mantenere la pila. Se infatti viene estratto l'elemento maggiore del campione, la pila deve conservare i parametri relativi a un massimo di  chiamate ricorsive.

Quicksort iterativo

modifica

Il primo passaggio da fare per passare dalla strategia ricorsiva a quella iterativa è quello di inserire il più grande dei due sottofile da ordinare nello stack assicurando che ogni sottofile presente nello stack non sia più grande della metà di quello che gli sta sotto, quindi lo stack non dovrà contenere più di un numero logaritmico di oggetti. Questa dimensione massima dello stack si verifica quando il partizionamento è effettuato sempre al centro del file. Per file casuali l'occupazione di stack è verosimilmente piccola.

La versione di base del quicksort potrà essere migliorata modificando appositamente le chiamate ricorsive. Più precisamente si può forzare la procedura ad eseguire sempre la prima chiamata relativa al sottovettore di lunghezza minore. Si ottiene un nuovo algoritmo con le seguenti istruzioni (la procedura viene scritta in pseudocodice):

 Procedure Quicksort(A, p, q)
 Input A vettore di elementi
   begin
     l ← Partition (A, p, q)
     if (l - p) < (q - l) then
       begin
         if p < (l - 1) then Quicksort(A,p, l - 1)
         if (l + 1) < q then Quicksort(A, l + 1, q)
       end
     else
       begin
         if (l + 1) < q then Quicksort(A, l + 1,q)
         if p < (l - 1) then Quicksort(A,p, l - 1)
       end
   end

A questo punto è possibile operare la trasformazione e passare nella versione iterativa. Si osserva innanzitutto che in questo caso il criterio di gestione della pila può essere semplificato sfruttando il fatto che le due chiamate ricorsive sono le ultime istruzioni della procedura. Si può quindi definire una versione iterativa nella quale la pila serve per mantenere l'elenco delle chiamate che devono ancora essere eseguite e non sono state neppure iniziate. In altre parole nell'esecuzione della procedura la prima chiamata ricorsiva viene attivata dopo aver accantonato in testa alla pila i parametri necessari per eseguire la seconda. Quest'ultima sarà attivata una volta completata la precedente, quando i suoi parametri si trovano di nuovo in testa alla pila. In particolare non si ha bisogno di mantenere nella pila il record di attivazione della procedura (che qualsiasi linguaggio di programmazione fa ogni qual volta viene chiamata una procedura).

L'algoritmo così ottenuto è descritto dalla seguente procedura:

 Procedure Quicksort(A)
 Input: un vettore A con i dati da ordinare
   begin
     p ← 1
     q ← n
     S ← NULL
     repeat
       while (q - p) ≤ 1 do
          begin
            Partition(A, p, q)
            sia Ap1,q1 il vettore max(Ap,q)
            sia Ap2,q2 il vettore min(Ap,q)
            S ← Push(S, (p1,q1))
            p ← p2
            q ← q2
          end
     until (S = NULL) or (q - p) < 1
   end

Si può dimostrare che la procedura è corretta. Infatti al termine dell'esecuzione di ogni ciclo repeat-until le parti del vettore di ingresso non ancora ordinate sono contenute nella pila S oppure in  . La verifica di questa proprietà è facile. Di conseguenza quando si esce dal ciclo la condizione (S ≠ NULL) e (q - p) < 1 garantisce che il vettore di ingresso sia ordinato.

Valutazione altezza massima dello stack

modifica

Si osserva innanzitutto che il vettore   sul quale la macchina sta lavorando non è mai maggiore del vettore che si trova in testa alla pila S. Inoltre, ad ogni incremento di S la dimensione  , viene ridotta almeno della metà. Quindi durante la computazione la pila può contenere al più   elementi dove   è la dimensione dell'input.

Quicksort misto ricorsivo-iterativo

modifica

Come descritto per il Quicksort iterativo, anche per questa strategia il primo passo è quello di modificare la procedura ricorsiva considerando il fatto che la seconda chiamata alla funzione Quicksort avviene alla fine della procedura, quando non c'è più quindi la necessità di mantenere nello stack le informazioni e lo stato della funzione chiamante. Si può allora trasformare la seconda chiamata ricorsiva in un loop interno alla funzione chiamante stessa, dopo averne opportunamente aggiornato i parametri d'ingresso. Se a questo primo passo aggiungiamo che la prima chiamata ricorsiva è sempre effettuata sulla parte di vettore da ordinare che risulta più corta (e quindi mai maggiore della metà del vettore di partenza), questa strategia contemporaneamente riduce il numero di chiamate ricorsive e può utilizzare lo stack di sistema (senza doverne creare uno ad hoc) dato che limita la profondità massima dello stack, anche nel caso pessimo, a   elementi.

Si riporta una efficiente implementazione in C della strategia descritta. Il codice può essere compilato per ordinare stringhe, numeri interi, etc.

/********** QuickSort(): sorts the vector 'list[]' **********/

/**** Compile QuickSort for strings ****/
#define QS_TYPE char*
#define QS_COMPARE(a,b) (strcmp((a),(b)))

/**** Compile QuickSort for integers ****/
//#define QS_TYPE int
//#define QS_COMPARE(a,b) ((a)-(b))

/**** Compile QuickSort for doubles, sort list in inverted order ****/
//#define QS_TYPE double
//#define QS_COMPARE(a,b) ((b)-(a))

void QuickSort(QS_TYPE list[], int beg, int end)
{
    QS_TYPE piv; QS_TYPE tmp;
    
    int  l,r,p;

    while (beg<end)    // This while loop will substitude the second recursive call
    {
        l = beg; p = (beg+end)/2; r = end;

        piv = list[p];

        while (1)
        {
            while ((l<=r) && (QS_COMPARE(list[l],piv) <= 0)) l++;
            while ((l<=r) && (QS_COMPARE(list[r],piv)  > 0)) r--;

            if (l>r) break;

            tmp=list[l]; list[l]=list[r]; list[r]=tmp;

            if (p==r) p=l;
            
            l++; r--;
        }

        list[p]=list[r]; list[r]=piv;
        r--;

        // Select the shorter side & call recursion. Modify input param. for loop
        if ((r-beg)<(end-l))   
        {
            QuickSort(list, beg, r);
            beg=l;
        }
        else
        {
            QuickSort(list, l, end);
            end=r;
        }
    }   
}

Stringhe e vettori

modifica

Selezione

modifica
  1. ^ L. Shustek, Interview: An interview with C.A.R. Hoare, in Comm. ACM, vol. 52, n. 3, 2009, pp. 38–41, DOI:10.1145/1467247.1467261.
  2. ^ My Quickshort interview with Sir Tony Hoare, the inventor of Quicksort, su anothercasualcoder.blogspot.com, Marcelo M De Barros, 15 marzo 2015.

Bibliografia

modifica
  • Hoare, C. A. R. (1961): Partition: Algorithm 63, Quicksort: Algorithm 64, and Find: Algorithm 65., Comm. ACM 4, pp. 321–322
  • Sedgewick, Robert (1978): Implementing quicksort programs, Communications of the ACM, 21(10) pp. 847–857.
  • Musser, David (1997): Introspective Sorting and Selection Algorithms, Software Practice and Experience vol 27, number 8, pp. 983–993
  • LaMarca, A.; Ladner, R. E. (1997): The Influence of Caches on the Performance of Sorting, Proceedings of the Eighth Annual ACM-SIAM Symposium on Discrete Algorithms, pp. 370–379.

Voci correlate

modifica

Altri progetti

modifica

Collegamenti esterni

modifica
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica