***Parametri:** $kernel_size, stride, padding, dilation$ sono parametri int o tuple.
***Hyperparameters:**
* Numero di filtri $K$
* Dimensione dei filtri $F$
* Stride $S$
* Padding $P$
### Pooling Layer
* Rende la rappresentazione più piccola e gestibile.
* Opera indipendentemente per ogni mappa di attivazione.
***Downsampling:**
* 224 diventa 112.
### Max Pooling
***No learnable parameters.**
* Introduce spatial invariance.
### Struttura tipica CNN
* CONV -> RELU -> POOL (più volte) -> FC (linear) -> Softmax.
* Struttura di base: $[(CONV-RELU)*N-POOL?]*M-(FC-RELU)*K,SOFTMAX$
Spero che questi appunti ti siano utili. Buono studio per il tuo esame! Se hai altre domande, non esitare a chiedere.
## Appunti su Reti Neurali e Convoluzionali
### Dropout
***Definizione:** Tecnica di regolarizzazione per prevenire l'overfitting in reti neurali.
***Funzionamento (Training):**
* Disattiva casualmente una frazione di neuroni durante ogni iterazione di training.
* I neuroni disattivati (dropped-out) hanno attivazione zero.
* La probabilità di dropout è controllata dall'iperparametro *p* (dropout rate), dove 0 ≤ *p*<1.
* I pesi dei neuroni attivi vengono aggiornati normalmente con backpropagation.
* I neuroni disattivati non contribuiscono al forward o backward pass.
* Formula: $h = r ⊙ x$, dove $rᵢ ~ Bernoulli(1-p)$ e $⊙$ è la moltiplicazione elemento per elemento.
***Funzionamento (Inferenza):**
* Nessun neurone viene disattivato.
* Le attivazioni vengono scalate in base al dropout rate (*p*). Tipicamente si moltiplica per 1-*p* per compensare la minore attività dei neuroni in training.
* Formula: $h = (1-p)x$
***Inverse Dropout:**
* La scalatura delle attivazioni viene fatta durante il training, non l'inferenza.
* Assicura la consistenza dei valori delle attivazioni tra training e inferenza.
* Formula: $h = (r ⊙ x) / (1-p)$
***Obiettivo:** Forzare la rete a imparare caratteristiche robuste che non dipendono da neuroni specifici.
***Efficacia:** Non è sempre efficace.
### Connessioni Residue (Residual Connections)
***Definizione:** Introdotte nelle Residual Networks (ResNets) per affrontare il problema del vanishing gradient.
***Funzionamento:**
* Aggiungono l'input di un layer direttamente al suo output, "saltando" uno o più layer.
* Formula: $h = F(x) + x$
* Ogni layer aggiunge un "residuo" al valore precedente.
***Backpropagation:**
* Se i parametri sono tali che $F(x) = 0$, allora l'input passa inalterato (funzione identità).
* I derivati non si annullano grazie alla forma $F(x) + x$.
***Deep Residual Networks:**
* Consistono in molti layer con unità residue.
* Per la visione, F sono tipicamente 2-3 layer convolution nets.
* Performance migliore con profondità maggiori rispetto alle reti normali.
***Esempio ImageNet:**
* ResNet 152 layers: errore top-5 4.49%
* Ensemble ResNet: 3.57%
* Precedente SOTA: 6.6% (GoogLeNet)
* Umani: 5.1%
* ResNets fino a 1000 layers, ma le performance si stabilizzano a 150 layer.
### Normalizzazione
***Standard Scaling:**
* Preprocessa i dati in modo che ogni feature (colonna) abbia media zero e varianza unitaria.
* Formula: $X' = (X - μ) / sqrt(σ²)$
* $μ$: media della feature, calcolata come $μⱼ = (1/n) Σᵢ Xᵢⱼ$
* $σ²$: varianza della feature, calcolata come $σ²ⱼ = (1/n) Σᵢ (Xᵢⱼ - μⱼ)²$
***Batch Normalization (BN):**
* Normalizza gli output di ogni layer o blocco in una rete neurale.
* Obiettivo: imparare media e varianza ottimali per ogni unità del layer durante il training.
* La media e la varianza di un layer cambiano durante l'ottimizzazione.
* Calcola media e varianza su un mini-batch anziché sull'intero dataset.
* Formula: $H' = (H - μ) / (sqrt(σ²) + ε)$
* BN(H) imposta una nuova media e varianza: $BN(H) = αH'ᵢⱼ + βⱼ$
* $α$ e $β$ sono trainati via gradient descent.
***Inferenza:**
***Post-Training Stats:** Calcola media e varianza sull'intero dataset e le usa fisse.
***Moving Average:** Mantiene medie mobili di media e varianza durante il training, le usa fisse in inferenza.
***BN Convoluzioni:**
* Media e varianza sono calcolate *per canale*, non per feature.
***Sfide:**
***Mini-batch dependencies:** Limita l'efficacia in scenari come distributed optimization.
***High variance:** Con batch piccoli, la stima di media e varianza è poco affidabile.
***Layer Normalization (LN):**
* Normalizza gli input a un layer *attraverso le features* (non mini-batch).
* Comunemente usata in forecasting con time series e transformers (batch size variabile o spesso = 1).
* Vengono allenate le variabili alfa e beta.
### Data Augmentation
***Definizione:** Tecnica per aumentare la dimensione del training set applicando trasformazioni casuali ai dati.
***Funzionamento:**
1. Campiona un mini-batch dal dataset.
2. Applica una o più trasformazioni casuali (flipping, cropping, rotazione...).
3. Allena il modello sul mini-batch trasformato.
***Benefici:** Previene overfitting e migliora la robustezza del modello.
***Trasformazioni Geometriche:**
* Flipping (orizzontale/verticale)
* Rotazione (angoli casuali)
* Traslazione (shift in x/y)
* Scaling (ridimensionamento)
* Cropping (ritaglio)
* Zooming
* Affine (combinazione di altre)
***Trasformazioni Colore/Luce:**
* Brightness/Contrast/Saturation/Hue
* Color Jittering
* Grayscale
***Noise and Distortion:**
* Gaussian Noise
* Salt-and-Pepper Noise
* Elastic Deformations
***Cutout/Masking:**
* Cutout
* Random Erasing
***Combinazione Tecniche:**
* Mixup
* CutMix
### Convoluzioni 1D
***Definizione:** Usata per dati *time series* dove l'informazione è ordinata in sequenza.
***Obiettivo:** Estrarre feature locali o pattern che evolvono nel tempo.
***Input:** Time series di n passi, $x₀, x₁,..., xₙ₋₁$, dove ogni passo ha c features.
* Rappresentata come matrice $X (n, c)$: ogni riga è un timestep, ogni colonna è una feature.
***Convoluzione 1D:** Definità da un receptive field di dimensione 2k:
* $Hᵢ = φ( Σⱼ₌₋ₖᵏ Σ₂₁ᶜ Wⱼ₊ₖ,₂ * Xᵢ₊ⱼ,₂)$
***Scopi:**
***Local Pattern Detection:** Catturare dipendenze locali nei time series.
***Parameter Sharing:** Stesso filtro applicato a tutti i passi, riducendo i parametri.
***Translation Invariance:** Robustezza a shift nel tempo.
***Applicazioni:**
* Forecasting
* Anomaly Detection
* Classification
* Signal Processing
***Causal Convolution:**
* L'output a un tempo i dipende solo dai passi precedenti (non futuri).
* Utile per forecasting e modelli che non devono "vedere" il futuro.
* $Hᵢ = φ( Σⱼ₌₀ᵏ Σ₂₁ᶜ Wⱼ,₂ * Xᵢ₋ⱼ,₂)$
### Causal Model
***Forecasting:** Prevedere il passo successivo nei time series.
***Opzioni:**
* Poola l'output $H$ e applica un regressor per predire $xₙ$.
* Definisce un target $Y = [x₁, x₂,..., xₙ]$ e allena il modello in modo che $Hᵢ ≈ Hᵢ₊₁$
* Quest'ultimo funziona solo con modelli causali.
### Autoregressive Generation
* Modelli allenati a prevedere il passo successivo possono essere usati per generazione autoregressiva.
***Funzionamento:**
1. Inizia con una sequenza iniziale come prompt.
2. Il modello predice il passo successivo.
3. Aggiungi la predizione all'input e ripeti.
### Self-Attention
***Scopo:** Modellare sequenze.
***Confronto con 1D Convolution:**
***1D Convolution:** Filtro a dimensione fissa, cattura pattern locali.
***Self-Attention:** Calcola le interazioni tra ogni elemento della sequenza, imparando le dipendenze globali.
***Funzionamento:**
* Calcola gli "attention scores" tra tutti gli elementi di una sequenza.
* L'output è la somma pesata degli elementi, dove i pesi sono gli attention scores.
***Q, K, V Matrices:**
* Ogni token viene trasformato in 3 vettori: Query (Q), Key (K), Value (V).
***Analogia web search:**
* Query (Q): la search term
* Key (K): titoli delle pagine web
* Value (V): contenuto delle pagine web.
* Il modello usa Q, K, V per calcolare gli attention scores.
***Masked Self-Attention:**
***Attention Score:** $dot product$ di Q e K.
***Masking:** Blocca i token futuri (upper triangle) ponendo i loro scores a $-inf$.
***Softmax:** Converte gli scores in probabilità.
***Multi-Head Attention:**
* Multipli self-attention heads, ognuno cattura relazioni diverse tra i tokens.
* Output concatenati e passati per una proiezione lineare.
***MLPs:**
* I risultati del multi-head self-attention vengono elaborati da un Multilayer Perceptron.