Marco Realacci 34d8577615 vault backup: 2024-12-26 04:24:44

2024-12-26 04:24:44 +01:00

3 KiB

Raw Blame History

Linear Regression

Definizione

La regressione lineare è un metodo per modellare la relazione tra variabili indipendenti (input,$x$) e una variabile dipendente (output,$y$) assumendo che questa relazione sia approssimativamente lineare.

Notazione

-m: Numero di esempi di training. -n: Numero di caratteristiche (features). -x^{(i)}: Input del$i$-esimo esempio. -y^{(i)}: Output del$i$-esimo esempio. -\theta: Parametri del modello.

Ipotesti del modello

La funzione ipotesi per un modello con una variabile è:

h_\theta(x) = \theta_0 + \theta_1x

Per più variabili (multivariata):

h_\theta(x) = \theta_0 + \theta_1x_1 + \dots + \theta_nx_n = \theta^T x

Funzione di costo

Misura l'errore tra le predizioni del modello e i valori reali:

J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} \left( h_\theta(x^{(i)}) - y^{(i)} \right)^2

Gradient Descent

Algoritmo iterativo per minimizzare$J(\theta)$:

\theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}

Dove:

\alpha è il learning rate.
$\frac{\partial J(\theta)}{\partial \theta_j}$è il gradiente rispetto a$\theta_j$.

Varianti

Batch Gradient Descent: Usa tutti gli esempi per calcolare il gradiente.
Stochastic Gradient Descent (SGD): Aggiorna $\theta$usando un solo esempio per iterazione.
Mini-batch Gradient Descent: Combina i due approcci sopra usando piccoli gruppi (mini-batch).

Feature Scaling

Per migliorare la convergenza del gradient descent, è utile normalizzare le feature:

x_j := \frac{x_j - \mu_j}{s_j}

Dove:

\mu_j: Media della feature$j$.
s_j: Range o deviazione standard della feature j.

Equazione Normale

Un metodo analitico per calcolare i parametri \theta: \theta = (X^T X)^{-1} X^T y Utile quando il dataset è piccolo, ma inefficiente per grandi dataset.

Metrica di Valutazione

MSE (Mean Squared Error): Valuta l'errore medio quadratico.
Coefficiente di correlazione (Pearson): Misura la relazione lineare tra x e y:

$r = \frac{\text{Cov}(x, y)}{\sigma_x \sigma_y

Valori:

r = 1: Massima correlazione positiva.
r = 0: Nessuna correlazione.
r = -1: Massima correlazione negativa.
R^2 (Coefficient of Determination): R^2 = 1 - \frac{\text{SSE}}{\text{SST}} Dove:
- \text{SSE}: Somma degli errori quadrati.
- \text{SST}: Somma totale dei quadrati.

Locally weighted regression (Loess/Lowess)

Tecnica non parametrica che pesa gli esempi locali:

w^{(i)} = \exp\left(-\frac{(x - x^{(i)})^2}{2\tau^2}\right)

Dove \tau è un parametro di larghezza (bandwidth).

Interpretazione Probabilistica

Assumendo un errore gaussiano:

y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}, \quad \epsilon^{(i)} \sim \mathcal{N}(0, \sigma^2)

La massimizzazione della verosimiglianza equivale alla minimizzazione di$J(\theta)$.

Overfitting e Underfitting

Overfitting: Modello troppo complesso; alta varianza.
Underfitting: Modello troppo semplice; alto bias. Soluzioni:
Selezione delle feature.
Regolarizzazione.

3 KiB Raw Blame History