Introduzione alle Reti Neurali. Perceptron Multistrato

Nella sezione precedente, hai imparato il modello di rete neurale più semplice: il perceptron a uno strato, un modello lineare per la classificazione a due classi.

In questa sezione estenderemo questo modello in un framework più flessibile, che ci permetterà di:

eseguire la classificazione multi-classe oltre alla classificazione a due classi
risolvere problemi di regressione oltre alla classificazione
separare classi che non sono linearmente separabili

Svilupperemo inoltre un framework modulare in Python che ci consentirà di costruire diverse architetture di reti neurali.

Quiz pre-lezione

Formalizzazione del Machine Learning

Iniziamo formalizzando il problema del Machine Learning. Supponiamo di avere un dataset di addestramento X con etichette Y, e dobbiamo costruire un modello f che produca previsioni il più accurate possibile. La qualità delle previsioni viene misurata tramite la funzione di perdita ℒ. Le seguenti funzioni di perdita sono spesso utilizzate:

Per problemi di regressione, quando dobbiamo prevedere un numero, possiamo usare l'errore assoluto ∑_i|f(x⁽ⁱ⁾)-y⁽ⁱ⁾|, o l'errore quadratico ∑_i(f(x⁽ⁱ⁾)-y⁽ⁱ⁾)²
Per la classificazione, utilizziamo la perdita 0-1 (che è essenzialmente la stessa cosa dell'accuratezza del modello), o la perdita logistica.

Per il perceptron a uno strato, la funzione f era definita come una funzione lineare f(x)=wx+b (qui w è la matrice dei pesi, x è il vettore delle caratteristiche di input, e b è il vettore di bias). Per diverse architetture di reti neurali, questa funzione può assumere una forma più complessa.

Nel caso della classificazione, spesso è desiderabile ottenere le probabilità delle classi corrispondenti come output della rete. Per convertire numeri arbitrari in probabilità (ad esempio per normalizzare l'output), utilizziamo spesso la funzione softmax σ, e la funzione f diventa f(x)=σ(wx+b)

Nella definizione di f sopra, w e b sono chiamati parametri θ=⟨w,b⟩. Dato il dataset ⟨X,Y⟩, possiamo calcolare un errore complessivo sull'intero dataset come funzione dei parametri θ.

✅ L'obiettivo dell'addestramento della rete neurale è minimizzare l'errore variando i parametri θ

Ottimizzazione con Discesa del Gradiente

Esiste un metodo noto per l'ottimizzazione delle funzioni chiamato discesa del gradiente. L'idea è che possiamo calcolare una derivata (nel caso multidimensionale chiamata gradiente) della funzione di perdita rispetto ai parametri, e variare i parametri in modo tale che l'errore diminuisca. Questo può essere formalizzato come segue:

Inizializzare i parametri con alcuni valori casuali w⁽⁰⁾, b⁽⁰⁾
Ripetere il seguente passo molte volte:
- w⁽ⁱ⁺¹⁾ = w⁽ⁱ⁾-η∂ℒ/∂w
- b⁽ⁱ⁺¹⁾ = b⁽ⁱ⁾-η∂ℒ/∂b

Durante l'addestramento, i passi di ottimizzazione dovrebbero essere calcolati considerando l'intero dataset (ricorda che la perdita viene calcolata come somma su tutti i campioni di addestramento). Tuttavia, nella pratica prendiamo piccole porzioni del dataset chiamate minibatch, e calcoliamo i gradienti basandoci su un sottoinsieme di dati. Poiché il sottoinsieme viene scelto casualmente ogni volta, tale metodo è chiamato discesa del gradiente stocastica (SGD).

Perceptron Multistrato e Backpropagation

La rete a uno strato, come abbiamo visto sopra, è in grado di classificare classi linearmente separabili. Per costruire un modello più ricco, possiamo combinare diversi strati della rete. Matematicamente ciò significherebbe che la funzione f avrebbe una forma più complessa e verrebbe calcolata in diversi passaggi:

z₁=w₁x+b₁
z₂=w₂α(z₁)+b₂
f = σ(z₂)

Qui, α è una funzione di attivazione non lineare, σ è una funzione softmax, e i parametri θ=<w₁,b₁,w₂,b₂>.

L'algoritmo di discesa del gradiente rimarrebbe lo stesso, ma sarebbe più difficile calcolare i gradienti. Dato il principio della derivazione a catena, possiamo calcolare le derivate come:

∂ℒ/∂w₂ = (∂ℒ/∂σ)(∂σ/∂z₂)(∂z₂/∂w₂)
∂ℒ/∂w₁ = (∂ℒ/∂σ)(∂σ/∂z₂)(∂z₂/∂α)(∂α/∂z₁)(∂z₁/∂w₁)

✅ Il principio della derivazione a catena viene utilizzato per calcolare le derivate della funzione di perdita rispetto ai parametri.

Nota che la parte più a sinistra di tutte queste espressioni è la stessa, e quindi possiamo calcolare efficacemente le derivate partendo dalla funzione di perdita e andando "indietro" attraverso il grafo computazionale. Pertanto, il metodo di addestramento di un perceptron multistrato è chiamato backpropagation, o 'backprop'.

TODO: citazione immagine

✅ Approfondiremo il backpropagation in modo molto più dettagliato nel nostro esempio nel notebook.

Conclusione

In questa lezione, abbiamo costruito la nostra libreria di reti neurali e l'abbiamo utilizzata per un semplice compito di classificazione bidimensionale.

🚀 Sfida

Nel notebook allegato, implementerai il tuo framework per costruire e addestrare perceptron multistrato. Potrai vedere in dettaglio come operano le reti neurali moderne.

Procedi al notebook OwnFramework e segui le istruzioni.

Quiz post-lezione

Revisione e Studio Autonomo

Il backpropagation è un algoritmo comune utilizzato in AI e ML, vale la pena studiarlo in modo più approfondito

Compito

In questo laboratorio, ti viene chiesto di utilizzare il framework che hai costruito in questa lezione per risolvere la classificazione delle cifre scritte a mano del dataset MNIST.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Introduzione alle Reti Neurali. Perceptron Multistrato

Quiz pre-lezione

Formalizzazione del Machine Learning

Ottimizzazione con Discesa del Gradiente

Perceptron Multistrato e Backpropagation

Conclusione

🚀 Sfida

Quiz post-lezione

Revisione e Studio Autonomo

Compito

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Introduzione alle Reti Neurali. Perceptron Multistrato

Quiz pre-lezione

Formalizzazione del Machine Learning

Ottimizzazione con Discesa del Gradiente

Perceptron Multistrato e Backpropagation

Conclusione

🚀 Sfida

Quiz post-lezione

Revisione e Studio Autonomo

Compito