7.2 KiB
7.2 KiB
Solamente note generate da Gemini 2.0 sulla base del PDF, un po' così... Leggete 3 e 3.1, coprono già praticamente tutto e sono scritti bene.
Generalizzazione per Classificazione Multiclasse (C > 2)
Softmax
- Scopo: Mappare un vettore di logits (output non normalizzati di una rete neurale) in un vettore di probabilità che somma a 1. Questo permette di interpretare l'output come una distribuzione di probabilità sulle classi.
- Formula:
softmax(a_i) = exp(a_i) / Σ_j exp(a_j)
dove:
a_i
è l'i-esimo logit.exp(a_i)
è l'esponenziale del logit.Σ_j exp(a_j)
è la somma degli esponenziali di tutti i logits (fattore di normalizzazione).
- Proprietà:
- Esponenziale: Valori di
a_i
più alti risultano in probabilità più alte. Valori più bassi vengono ridimensionati verso lo zero. - Normalizzazione: Assicura che la somma di tutte le probabilità sia uguale a 1.
- Esponenziale: Valori di
- Relazione con i Logits:
f(x) = softmax(Θ^T x)
doveΘ^T x
rappresenta i logits.
Probabilità e Funzione di Verosimiglianza (Likelihood)
- Distribuzione di Probabilità: In un contesto di classificazione, rappresenta la probabilità che un'istanza appartenga a ciascuna delle classi.
- Codifica One-Hot: Le etichette di classe
y
sono spesso rappresentate con vettori one-hot (es. cat=[1, 0, 0], dog=[0, 1, 0], giraffe=[0, 0, 1]). - Funzione di Verosimiglianza per una Singola Istanza:
P(y | f(x)) = Π_i [f(x)_i]^{y_i}
dove:
f(x)_i
è la probabilità predetta per la classei
.y_i
è l'elemento corrispondente nel vettore one-hot (vale 1 per la classe corretta, 0 altrimenti).- Solo la probabilità della classe corretta contribuisce al prodotto grazie alla codifica one-hot.
- Funzione di Verosimiglianza per l'Intero Dataset:
L = Π_n P(y^i | f(x^i))
dove
n
indica l'indice del campione nel dataset.
Log-Verosimiglianza (Log-Likelihood) e Negative Log-Likelihood (NLL)
- Log-Verosimiglianza: È il logaritmo della funzione di verosimiglianza. Utilizzato per semplificare i calcoli e trasformare prodotti in somme.
log L = Σ_n log P(y^i | f(x^i)) = Σ_n Σ_c y^i_c log f(x^i)_c
- Negative Log-Likelihood (NLL): È l'opposto della log-verosimiglianza. Viene minimizzata durante l'addestramento.
NLL = - log L = - Σ_n Σ_c y^i_c log f(x^i)_c
- Cross-Entropy: La NLL è equivalente alla Cross-Entropy nel contesto della classificazione multiclasse con codifica one-hot.
Esempio di Calcolo della Cross-Entropy
- Viene fornito un esempio con due istanze (
π_1
,π_2
) e tre classi (cat, dog, giraffe). - Si calcola la Cross-Entropy per ciascuna istanza e poi la Cross-Entropy media
CE(Θ)
. - L'obiettivo è massimizzare la probabilità della classe vera a scapito delle altre.
Instabilità Numerica del Softmax
- Problema: Il calcolo dell'esponenziale di numeri grandi può portare a overflow, mentre la somma di esponenziali può portare a underflow.
- Soluzione: Sottrarre una costante
c
(tipicamente il massimo dei logits) a ciascun logit prima di calcolare l'esponenziale.log(Σ_i exp(p_i)) = log(Σ_i exp(p_i - c)) + c
- Beneficio: Evita che valori molto grandi influenzino negativamente l'ottimizzazione e previene l'instabilità numerica.
Funzione di Costo (Loss Function)
- Cross-Entropy: La Cross-Entropy è comunemente usata come funzione di costo per la classificazione multiclasse.
- Alternativa (per regressione):
-1/(2n) * (Loss)
è menzionata come funzione di costo per la regressione (differenza dei quadrati). - Normalizzazione: La funzione di costo viene normalizzata per il numero di campioni nel dataset.
Regressione Logistica Multiclasse
f(x) = softmax(Θ^T x)
è la formulazione della regressione logistica multiclasse.- L'obiettivo è trovare il miglior set di parametri $Θ$ minimizzando la funzione di costo (Cross-Entropy).
Entropia, Cross-Entropy e Divergenza KL
- Entropia (H(P)): Misura l'incertezza di una distribuzione di probabilità
P
.H(P) = - Σ_i p_i log p_i
- Cross-Entropy (CE(P, Q)): Misura l'incertezza della distribuzione
P
quando la codifichiamo usando la distribuzioneQ
.CE(P, Q) = - Σ_i p_i log q_i
- Divergenza KL (KL(P||Q)): Misura quanta informazione si perde quando si usa la distribuzione
Q
al posto diP
.KL(P||Q) = Σ_i p_i log (p_i / q_i)
- Relazione:
CE(P, Q) = H(P) + KL(P||Q)
H(P)
: Incertezza della distribuzione vera.KL(P||Q)
: Costo aggiuntivo di usareQ
invece diP
.
Calibrazione del Modello
- Logits vs. Probabilità: I logits non possono essere interpretati direttamente come probabilità.
- Calibrazione: Misura quanto bene le probabilità predette dal modello corrispondono alle frequenze osservate.
- Procedura:
- Selezionare un set di validazione.
- Dividere l'intervallo [0, 1] in
m
bin. B_m
: Numero di campioni la cui confidenza cade nel binm
.P_m
: Confidenza media per ciascun bin.a_m
: Accuratezza media per ciascun bin.
- Expected Calibration Error (ECE): Misura l'errore di calibrazione atteso.
ECE = Σ_m |B_m / n| * |a_m - P_m|
Iperpiani
- Spazio N-dimensionale: Un iperpiano in uno spazio N-dimensionale è un sottospazio piatto di dimensione N-1.
- Esempi:
- 2D -> Linea 1D
- 3D -> Piano 2D
- Proprietà:
- Possono separare linearmente le classi che sono linearmente separabili.
- La distanza dal campione di dati più vicino all'iperpiano è chiamata margine.
Bias-Varianza
- Underfitting: Il modello è troppo semplice e non riesce a catturare le relazioni nei dati.
- Perfect-fit: Il modello trova un buon equilibrio tra bias e varianza.
- Overfitting: Il modello è troppo complesso e si adatta troppo bene ai dati di addestramento, imparando anche il rumore. Ciò porta a una scarsa generalizzazione su dati nuovi.
- Errore (Error): Rappresenta la discrepanza tra la previsione del modello e il valore vero.
- Bias²: Differenza tra la previsione media del modello e il valore corretto. Un bias alto indica che il modello fa ipotesi troppo semplificate.
- Varianza (Variance): Variabilità della previsione del modello per un dato dataset. Alta varianza significa che il modello è sensibile alle fluttuazioni nei dati di addestramento.
- Capacità del Modello (Model Capacity): La capacità del modello di apprendere relazioni complesse nei dati.
- Trade-off Bias-Varianza: C'è un compromesso tra bias e varianza. Aumentare la capacità del modello generalmente riduce il bias ma aumenta la varianza, e viceversa.
- Errore Irriducibile (σ²): Errore intrinseco ai dati che non può essere ridotto dal modello.
- Decomposizione dell'Errore Quadratico Medio (MSE):
E[(Y - f(X))^2] = Bias(f(X))^2 + Variance(f(X)) + σ^2
- Minimizzazione del Rischio:
- Rischio Atteso: Minimizzato per ottenere i parametri ottimali
Θ*
. - Rischio Empirico: Minimizzato per ottenere i parametri
Θ_hat
.
- Rischio Atteso: Minimizzato per ottenere i parametri ottimali
Spero che questi appunti ti siano utili per prepararti al tuo esame! Inserendoli in Obsidian, potrai anche collegare concetti correlati per una comprensione più approfondita. In bocca al lupo!