Discesa del gradiente

Illustrazione grafica del metodo per trovare il minimo su una superficie

In ottimizzazione e analisi numerica, il metodo di discesa del gradiente (detto anche metodo del gradiente, oppure metodo della massima discesa, o anche della discesa più ripida; in inglese gradient descent o steepest descent) è una tecnica che consente di determinare i punti di massimo e minimo di una funzione di più variabili. In particolare, il metodo va alla ricerca di punti che soddisfano condizioni di ottimalità (condizioni necessarie, sufficienti, necessarie e sufficienti all'ottimo).

Il metodo fu sviluppato, e pubblicato nel 1847, dal matematico francese Augustin-Louis Cauchy nel tentativo di risolvere il problema della determinazione dell'orbita di un corpo celeste a partire dalle sue equazioni del moto[1].

Esempio

Si supponga di voler minimizzare la funzione f ( x 1 , x 2 , x 3 ) = x 1 2 x 2 + x 3 {\displaystyle f(x_{1},x_{2},x_{3})=x_{1}^{2}-x_{2}+x_{3}} e si scelga come soluzione iniziale il vettore x 0 = [ 1 , 2 , 3 ] T {\displaystyle \mathbf {x} _{0}=[1,2,3]^{T}} . Allora

f ( x 0 ) = 2 {\displaystyle f(\mathbf {x} _{0})=2}

e, muovendosi in un intorno di x 0 {\displaystyle \mathbf {x} _{0}} :

f ( 1.1 , 2 , 3 ) = 2.21 , f ( 0.9 , 2 , 3 ) = 1.81 , f ( 1 , 2.1 , 3 ) = 1.9 , f ( 1 , 1.9 , 3 ) = 2.1 , f ( 1 , 2 , 3.1 ) = 2.1 , f ( 1 , 2 , 2.9 ) = 1.9. {\displaystyle {\begin{aligned}f(1.1,2,3)&=2.21,\\f(0.9,2,3)&=1.81,\\f(1,2.1,3)&=1.9,\\f(1,1.9,3)&=2.1,\\f(1,2,3.1)&=2.1,\\f(1,2,2.9)&=1.9.\end{aligned}}}

Questi calcoli mostrano che, per individuare dei punti - vicini a x 0 {\displaystyle \mathbf {x} _{0}} - in corrispondenza dei quali la funzione assume un valore minore di f ( x 0 ) {\displaystyle f(\mathbf {x} _{0})} , conviene spostarsi lungo direzioni che abbiano la prima e la terza componente x 1 , x 3 {\displaystyle x_{1},x_{3}} più piccole o seconda componente x 2 {\displaystyle x_{2}} più grande. Inoltre esistono delle direzioni preferenziali lungo le quali la funzione f {\displaystyle f} decresce più velocemente (ad esempio scegliere una coordinata x 1 {\displaystyle x_{1}} più piccola è preferibile rispetto a far diminuire x 3 {\displaystyle x_{3}} ).

La procedura può essere iterata partendo da un nuovo punto, ad esempio x 1 = [ 0.9 , 2 , 3 ] T {\displaystyle \mathbf {x} _{1}=[0.9,2,3]^{T}} , fino a individuare un minimo per f {\displaystyle f} . L'esempio mostra che una procedura che aggiorni la soluzione in modo iterativo sulla base delle informazioni disponibili localmente può portare a individuare un punto di minimo per la funzione assegnata.

Metodo

Descrizione

Con riferimento al seguente problema di ottimizzazione non vincolata,

{ min f ( x ) x R n {\displaystyle {\begin{cases}\min f(x)\\x\in \mathbb {R} ^{n}\end{cases}}}

il metodo del gradiente è una tecnica iterativa per la risoluzione di problemi di ottimizzazione non vincolati in cui a ogni passo k {\displaystyle k} , supposto f ( x k ) {\displaystyle \nabla f(x_{k})} diverso da zero, si sceglie come direzione di ricerca quella corrispondente a d k = f ( x k ) {\displaystyle d_{k}=-\nabla f(x_{k})} , ovvero la direzione dell'anti-gradiente (si ricordi a tal proposito che ogni generico vettore d R n {\displaystyle d\in \mathbb {R} ^{n}} , con d 0 {\displaystyle d\neq {\textbf {0}}} , identifica una direzione).

In particolare, il nome di "steepest descent method" deriva proprio da questa scelta. Non è difficile dimostrare infatti che la direzione dell'anti-gradiente è la direzione che minimizza (massimizza in modulo) il valore della derivata della funzione f {\displaystyle f} nel punto x k {\displaystyle x_{k}} rispetto a qualsiasi altra direzione a norma euclidea unitaria. Si noti soprattutto il riferimento alla particolare norma utilizzata. Una direzione è ottima per una particolare norma presa in considerazione.

Possiamo dunque affermare che ad ogni iterazione la direzione d k = f ( x k ) {\displaystyle d_{k}=-\nabla f(x_{k})} è soluzione al seguente problema (vincolato)

{ min f ( x k ) T d k d k 2 = 1 {\displaystyle {\begin{cases}\min \nabla f(x_{k})^{T}d_{k}\\\|d_{k}\|_{2}=1\end{cases}}}

La dimostrazione è immediata.

L'importanza di tale scelta in realtà risiede in altro. Si noti infatti che ad ogni iterazione, si ha che f ( x k ) T d k < 0 {\displaystyle \nabla f(x_{k})^{T}d_{k}<0} (angolo ottuso tra i due vettori), questo garantisce che se si fa uso di tecniche di ricerca unidimensionali nella scelta del passo lungo la direzione dell'anti-gradiente, si riesce a dare all'algoritmo proprietà di convergenza globali.

Se l'algoritmo ne fa uso, allora ad ogni iterazione, lo stato di aggiornamento della successione di punti prodotta diventa

x k + 1 = x k α k f ( x k ) {\displaystyle \mathbf {x} _{k+1}=\mathbf {x} _{k}-\alpha _{k}\mathbf {\nabla } f(x_{k})}

dove α k R + {\displaystyle \alpha _{k}\in \mathbb {R} ^{+}} corrisponde alla lunghezza del passo di discesa.

Esempi di tecniche di ricerca unidimensionali sono quelli che soddisfano le condizioni di accettabilità di Wolfe (sufficiente riduzione, sufficiente spostamento)

f ( x k + a k d k ) f ( x k ) + γ a k f ( x k ) T d k , γ ( 0 , 1 / 2 ) {\displaystyle f(x_{k}+a_{k}d_{k})\leq f(x_{k})+\gamma a_{k}\nabla f(x_{k})^{T}d_{k},\gamma \in (0,1/2)}
f ( x k + a k d k ) T d k σ f ( x k ) T d k , σ ( γ , 1 ) {\displaystyle \nabla f(x_{k}+a_{k}d_{k})^{T}d_{k}\leq \sigma \nabla f(x_{k})^{T}d_{k},\sigma \in (\gamma ,1)}

Ancora una volta è lasciata al lettore la possibilità di dare una interpretazione geometrica alla seconda condizione, condizione di sufficiente spostamento.

Si osservi tuttavia che l'algoritmo non garantisce convergenza a punti di minimo globale; in realtà non assicura nemmeno che il punto così trovato sia un punto di minimo locale. Tuttavia, se aggiungiamo a f {\displaystyle f} ipotesi di convessità su tutto il suo dominio di definizione, allora non solo si ha convergenza ad un punto di minimo locale ma tale punto è anche un punto di minimo globale per la funzione (unico nel caso di stretta convessità).

Algoritmo

Lo schema generale per l'ottimizzazione di una funzione f ( x ) {\displaystyle f(\mathbf {x} )} mediante metodo del gradiente è il seguente:

x 0 R n , k = 0 while  f ( x k ) 0 calcolare la direzione di discesa  d k := f ( x k ) calcolare il passo di discesa  α k x k + 1 = x k + α k d k k = k + 1 end . {\displaystyle {\begin{aligned}&x_{0}\in R^{n},k=0\\&{\text{while }}\nabla f(\mathbf {x} _{k})\neq 0\\&\qquad {\text{calcolare la direzione di discesa }}\mathbf {d} _{k}:=-\nabla f(\mathbf {x} _{k})\\&\qquad {\text{calcolare il passo di discesa }}\alpha _{k}\\&\qquad \mathbf {x} _{k+1}=\mathbf {x} _{k}+\alpha _{k}\mathbf {d} _{k}\\&\qquad k=k+1\\&{\hbox{end}}.\end{aligned}}}

Analisi della convergenza

Una volta descritto il metodo, il prossimo passo è studiarne la rapidità di convergenza. In particolare diamo un risultato (facilmente dimostrabile) circa la rapidità di convergenza (Q-convergenza) della successione di punti { x k } {\displaystyle \{x_{k}\}} al punto x ¯ : f ( x ¯ ) = 0 {\displaystyle {\overline {x}}:\nabla f({\overline {x}})=0} .

Di conseguenza la prima ipotesi che si fa nello studio della rapidità di convergenza del metodo è la validità del seguente limite

{ x k } x ¯ per     k {\displaystyle \{x_{k}\}\to {\overline {x}}\quad {\text{per}}\ \ k\rightarrow \infty }

Se le ipotesi prima enunciate sono valide, ovvero l'algoritmo fa uso di tecniche di ricerca unidimensionale, ed in particolare si assicura l'unicità del punto stazionario per la funzione, il limite sopra indicato converge.

Supponiamo allora di voler minimizzare la seguente funzione quadratica strettamente convessa

f ( x ) = x T Q x {\displaystyle f(x)=x^{T}Qx}

con Q {\displaystyle Q} matrice simmetrica definita positiva, e si indichino il suo autovalore massimo e minimo rispettivamente con λ M {\displaystyle \lambda _{M}} e λ m {\displaystyle \lambda _{m}} .

Tramite semplici passaggi algebrici, si arriva a dimostrare che

x k + 1 x ¯ 2 ( λ M λ m ) 1 / 2 ( λ M λ m λ M + λ m ) x k x ¯ 2 {\displaystyle \|x_{k+1}-{\overline {x}}\|_{2}\leq {\biggl (}{\frac {\lambda _{M}}{\lambda _{m}}}{\Biggr )}^{1/2}{\Biggl (}{\frac {\lambda _{M}-\lambda _{m}}{\lambda _{M}+\lambda _{m}}}{\Biggr )}\|x_{k}-{\overline {x}}\|_{2}}

dando al gradiente rapidità di convergenza Q-lineare.

Si noti come dipende dal rapporto tra il massimo ed il minimo autovalore della matrice. Questo spiega perché il metodo non funziona bene nel caso di matrici mal condizionate.

Soluzione di sistemi lineari

Un caso particolare di applicazione del metodo del gradiente consiste nella risoluzione di sistemi lineari. Si può usare il metodo ordinario o alcune varianti.

Metodo del gradiente

Si supponga di risolvere un sistema lineare della forma

A x = b , {\displaystyle A\mathbf {x} =\mathbf {b} ,}

dove A {\displaystyle A} è una matrice simmetrica e definita positiva. Per le proprietà di A {\displaystyle A} la soluzione di tale problema è equivalente alla procedura di minimizzazione della forma quadratica associata:

Q ( x ) = 1 2 x T A x x T b . {\displaystyle Q(\mathbf {x} )={\frac {1}{2}}\mathbf {x} ^{T}A\mathbf {x} -\mathbf {x} ^{T}\mathbf {b} .}

Infatti:

Q ( x ) = A x b {\displaystyle \nabla Q(\mathbf {x} )=A\mathbf {x} -\mathbf {b} }

da cui

Q ( x ) = 0 A x = b . {\displaystyle \nabla Q(\mathbf {x} )=0\Leftrightarrow A\mathbf {x} =\mathbf {b} .}

Per la funzione Q {\displaystyle Q} si ha che la direzione di massima discesa nel punto x k {\displaystyle \mathbf {x} _{k}} è:

Q ( x k ) = b A x k =: r k , {\displaystyle -\nabla Q(\mathbf {x} _{k})=\mathbf {b} -A\mathbf {x} _{k}=:\mathbf {r} _{k},}

coincidente con il residuo r k {\displaystyle \mathbf {r} _{k}} del sistema lineare. Dunque la direzione di discesa scelta a ogni iterazione è p k = r k {\displaystyle \mathbf {p} _{k}=\mathbf {r} _{k}} .

Inoltre vale la seguente relazione:

Q ~ ( α k ) := Q ( x k + α k p k ) = 1 2 ( p k T A p k ) α k 2 p k T ( b A x k ) = r k α k + 1 2 x k T A x k x k T b {\displaystyle {\tilde {Q}}(\alpha _{k}):=Q(\mathbf {x} _{k}+\alpha _{k}\mathbf {p} _{k})={\frac {1}{2}}(\mathbf {p} _{k}^{T}A\mathbf {p} _{k})\alpha _{k}^{2}-\mathbf {p} _{k}^{T}\underbrace {(\mathbf {b} -A\mathbf {x} _{k})} _{=\mathbf {r} _{k}}\alpha _{k}+{\frac {1}{2}}\mathbf {x} _{k}^{T}A\mathbf {x} _{k}-\mathbf {x} _{k}^{T}\mathbf {b} } [2] che permette di calcolare analiticamente il passo α k {\displaystyle \alpha _{k}} ottimale[3]. Infatti, imponendo la condizione di stazionarietà
0 = d Q ~ d α k ( α k ) = ( p k T A p k ) α k p k T r k {\displaystyle 0={\frac {\mathrm {d} {\tilde {Q}}}{\mathrm {d} \alpha _{k}}}(\alpha _{k})=(\mathbf {p} _{k}^{T}A\mathbf {p} _{k})\alpha _{k}-\mathbf {p} _{k}^{T}\mathbf {r} _{k}}

si ricava

α k = p k T r k p k T A p k . {\displaystyle \alpha _{k}={\frac {\mathbf {p} _{k}^{T}\mathbf {r} _{k}}{\mathbf {p} _{k}^{T}A\mathbf {p} _{k}}}.}

L'algoritmo del metodo del gradiente per la risoluzione di sistemi lineari è dunque

k = 0 while  r k 0 calcolare la direzione di discesa  p k := r k = b A x k calcolare il passo di discesa  α k := p k T r k p k T A p k x k + 1 = x k + α k p k k = k + 1 end . {\displaystyle {\begin{aligned}&k=0\\&{\text{while }}\mathbf {r} _{k}\neq \mathbf {0} \\&\qquad {\text{calcolare la direzione di discesa }}\mathbf {p} _{k}:=\mathbf {r} _{k}=\mathbf {b} -A\mathbf {x} _{k}\\&\qquad {\text{calcolare il passo di discesa }}\alpha _{k}:={\frac {\mathbf {p} _{k}^{T}\mathbf {r} _{k}}{\mathbf {p} _{k}^{T}A\mathbf {p} _{k}}}\\&\qquad \mathbf {x} _{k+1}=\mathbf {x} _{k}+\alpha _{k}\mathbf {p} _{k}\\&\qquad k=k+1\\&{\hbox{end}}.\end{aligned}}}

In aritmetica floating point la condizione del ciclo while può essere valutata verificando che la norma del residuo r k {\displaystyle \|\mathbf {r} _{k}\|} non sia più piccola di una tolleranza impostata dall'utente.

Varianti

Metodo del gradiente precondizionato

In molti casi è possibile accelerare la velocità di convergenza dell'algoritmo migliorando le proprietà di condizionamento della matrice A {\displaystyle A} . Si introduca a tal fine una matrice di precondizionamento P {\displaystyle P} simmetrica e definita positiva.

Lo schema risolutivo in questo caso diventa[3]:

k = 0 while  r k 0 calcolare la direzione di discesa  p k := r k = b A x k trovare la soluzione  z k  del sistema  P z k = p k calcolare il passo di discesa  α k := z k T r k z k T A z k x k + 1 = x k + α k z k k = k + 1 end . {\displaystyle {\begin{aligned}&k=0\\&{\text{while }}\mathbf {r} _{k}\neq \mathbf {0} \\&\qquad {\text{calcolare la direzione di discesa }}\mathbf {p} _{k}:=\mathbf {r} _{k}=\mathbf {b} -A\mathbf {x} _{k}\\&\qquad {\text{trovare la soluzione }}\mathbf {z} _{k}{\text{ del sistema }}P\mathbf {z} _{k}=\mathbf {p} _{k}\\&\qquad {\text{calcolare il passo di discesa }}\alpha _{k}:={\frac {\mathbf {z} _{k}^{T}\mathbf {r} _{k}}{\mathbf {z} _{k}^{T}A\mathbf {z} _{k}}}\\&\qquad \mathbf {x} _{k+1}=\mathbf {x} _{k}+\alpha _{k}\mathbf {z} _{k}\\&\qquad k=k+1\\&{\hbox{end}}.\end{aligned}}}

Metodo del gradiente coniugato

Lo stesso argomento in dettaglio: Metodo del gradiente coniugato.

Il metodo del gradiente coniugato costituisce una variante del metodo del gradiente in cui viene effettuata una scelta diversa, ma particolarmente conveniente nel caso di sistemi lineari simmetrici e definiti positivi, per le direzioni di discesa p k {\displaystyle \mathbf {p} _{k}} . Tale scelta garantisce la convergenza del metodo (in aritmetica esatta) in un numero di iterazioni pari al più alla dimensione del sistema da risolvere.

Analisi dell'errore

È possibile dimostrare che l'errore commesso alla k {\displaystyle k} -esima iterazione del metodo del gradiente soddisfa la seguente stima[3]:

e k A c k e k 1 A , {\displaystyle \|\mathbf {e} _{k}\|_{A}\leq c^{k}\|\mathbf {e} _{k-1}\|_{A},}

dove

c = κ ( A ) 1 κ ( A ) + 1 , {\displaystyle c={\frac {\kappa (A)-1}{\kappa (A)+1}},}

κ ( A ) {\displaystyle \kappa (A)} indica il numero di condizionamento in norma 2 {\displaystyle 2} di A {\displaystyle A} e x A := x T A x {\displaystyle \|\mathbf {x} \|_{A}:=\mathbf {x} ^{T}A\mathbf {x} } è la norma indotta da A {\displaystyle A} .

Nel caso precondizionato vale la stessa stima con

c = κ ( P 1 A ) 1 κ ( P 1 A ) + 1 . {\displaystyle c={\frac {\kappa (P^{-1}A)-1}{\kappa (P^{-1}A)+1}}.}

Esempio di implementazione

Si riporta un esempio di possibile implementazione del metodo del gradiente nella versione precondizionata compatibile con i linguaggi di programmazione Octave e MATLAB.

function [xk] = grad_prec(A, b, x0, nmax, toll)
    xk = x0;
    iter = 0;
    while ((norm(rk) >= toll) && (iter < nmax))
        rk = b - A * xk;
        zk = P \ rk;
        alphak = zk' * rk / ((A * zk)' * zk);
        xk = xk + alphak * zk;
        iter = iter + 1;
    end
    if iter == nmax
        warning('Convergenza non raggiunta in nmax iterazioni!');
    end
end

Approssimazione stocastica

Lo stesso argomento in dettaglio: Discesa stocastica del gradiente.

Quando la funzione obiettivo è troppo costosa da calcolare ad ogni iterazione, ma può essere scomposta in una somma di molti addendi (ad esempio, la somma del costo calcolato su ogni singolo record in un dataset), il gradiente può essere approssimato stocasticamente restringendo la somma su un sottinsieme di addendi ad ogni iterazione, metodo noto come discesa stocastica del gradiente.

Applicazione alle reti neurali artificiali

La discesa del gradiente è ampiamente utilizzata in statistica e apprendimento automatico per l'addestramento tramite apprendimento supervisionato di modelli come reti neurali artificiali e modelli grafici. Il principio è noto come regola delta, e consiste nel valutare il modello su un input il cui corrispondente output esatto sia noto, e correggere ciascun parametro del modello in una quantità proporzionale (ma di segno opposto) rispetto al suo contributo all'errore sul risultato. L'algoritmo usato nelle reti neurali per implementare questo principio è noto come retropropagazione dell'errore, che consiste in un'applicazione della discesa del gradiente, essendo il contributo di ciascun parametro all'errore del modello dato dalla derivata parziale della funzione di perdita rispetto al parametro stesso.

La regola, classificabile fra i metodi per l'apprendimento supervisionato, può essere applicata a reti neurali di tipo in avanti (cioè con propagazione unidirezionale dei segnali, in inglese: feedforward) e permette di calcolare la differenza tra i valori di output che la rete ottiene e quelli che invece dovrebbe apprendere. La regola deve essere applicata a reti che usano unità di output ad attivazione continua e differenziabile ed è l'elemento fondamentale dell'algoritmo di retropropagazione dell'errore (backpropagation), alla base dell'approccio connessionista.

Data una rete in avanti con le proprietà sopra descritte, l'obiettivo che ci si prefigge è minimizzare la diversità tra i valori di attivazione delle unità di output y {\displaystyle \mathbf {y} } della rete (ottenuti sommando i segnali provenienti dalle diverse unità di input x {\displaystyle \mathbf {x} } moltiplicati per l'efficacia, o pesi sinaptici w {\displaystyle \mathbf {w} } delle connessioni in ingresso), e i valori t {\displaystyle \mathbf {t} } della risposta desiderata. Tale diversità viene quantificata attraverso una funzione di perdita. La funzione obiettivo che si vuole minimizzare è il valore atteso della perdita (in pratica la perdita media sui dati).

Per applicare il metodo del gradiente, la funzione di perdita deve essere derivabile rispetto ai valori di output y {\displaystyle \mathbf {y} } . Una scelta adatta a problemi di regressione è lo scarto quadratico medio tra y {\displaystyle \mathbf {y} } e t {\displaystyle \mathbf {t} } (valutato per tutte le unità di output e per tutti i pattern d'apprendimento); per problemi di classificazione si può utilizzare la divergenza di Kullback-Leibler o equivalentemente l'entropia incrociata.

Nella fase di addestramento, variando i pesi sinaptici w {\displaystyle \mathbf {w} } (parametri del modello) si può aumentare o diminuire la funzione obiettivo; la prestazione della rete sarà funzione delle variabili w {\displaystyle \mathbf {w} } , e sarà massima quando si raggiunge il minimo della funzione obiettivo, il che si ottiene applicando il metodo del gradiente e aggiornando iterativamente i valori dei pesi sinaptici.

Poiché nelle applicazioni pratiche le dimensioni dei modelli e dei relativi dataset usati nell'addestramento sono molto grandi, in pratica si fa generalmente uso della discesa stocastica del gradiente per l'addestramento delle reti neurali e di altri modelli statistici e di apprendimento automatico.

Note

  1. ^ (EN) Cauchy and the Gradient Method (PDF), su math.uni-bielefeld.de. URL consultato il 20 giugno 2016.
  2. ^ Si è sfruttata la proprietà A x y = x A y {\displaystyle A\mathbf {x} \cdot \mathbf {y} =\mathbf {x} \cdot A\mathbf {y} } , valida se A {\displaystyle A} è simmetrica.
  3. ^ a b c Quarteroni, Sacco, Saleri.

Bibliografia

  • A. Quarteroni, R. Sacco e F. Saleri, Matematica numerica, 4ª ed., Milano, Springer Verlag, 13 marzo 2014, ISBN 978-88-470-5643-5.
  • Dispensa di un corso di "Complementi di ricerca operativa" (PDF), su homes.di.unimi.it. URL consultato il 20 giugno 2016.

Voci correlate

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file sulla discesa del gradiente

Collegamenti esterni

  • Metodi di ottimizzazione (PDF), su dmsa.unipd.it. URL consultato il 20 giugno 2016.
  • Problemi di ottimizzazione non vincolata (PDF), su dis.uniroma1.it. URL consultato il 20 giugno 2016 (archiviato dall'url originale il 22 dicembre 2016).
  • (EN) The Steepest Descent Algorithm for Unconstrained Optimization and a Bisection Line-search Method (PDF), su ocw.mit.edu. URL consultato il 20 giugno 2016.
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica