Normal Equation è un approccio analitico alla regressione lineare con una Least Square Cost Function. Possiamo trovare direttamente il valore di θ senza usare Gradient Descent. Seguire questo approccio è un’opzione efficace e che fa risparmiare tempo quando si lavora con un set di dati con piccole caratteristiche.
L’equazione normale è la seguente:
Nell’equazione di cui sopra,
θ : parametri di ipotesi che la definiscono al meglio.
X : valore della caratteristica di ingresso di ogni istanza.
Y : valore di uscita di ogni istanza.
La matematica dietro l’equazione –
Data la funzione di ipotesi
dove,
n : il numero di caratteristiche nel set di dati.
x0 : 1 (per la moltiplicazione del vettore)
Nota che questo è il prodotto di punto tra θ e valori x. Quindi per la comodità di risolvere possiamo scriverlo come :
Il motivo della regressione lineare è quello di minimizzare la funzione di costo:
dove,
xi : il valore di input di iih esempio di training.
m : no. di istanze di training
n : no. di caratteristiche dell’insieme di dati
yi : il risultato atteso dell’istanza ih
Rappresentiamo la funzione di costo in forma vettoriale.
abbiamo ignorato 1/2m in quanto non farà alcuna differenza nel lavoro. È stato usato per la comodità matematica durante il calcolo della discesa del gradiente. Ma non è più necessario qui.
xij : valore della caratteristica jih nell’esempio di formazione iih.
Questo può essere ulteriormente ridotto a
Ma ogni valore residuo è al quadrato. Non possiamo semplicemente elevare al quadrato l’espressione di cui sopra. Poiché il quadrato di un vettore/matrice non è uguale al quadrato di ogni suo valore. Quindi, per ottenere il valore al quadrato, moltiplicare il vettore/matrice con la sua trasposizione. Quindi, l’equazione finale derivata è
Quindi, la funzione di costo è
Quindi, ora otteniamo il valore di θ usando la derivata
Quindi, questa è l’equazione normale derivata con θ che dà il valore di costo minimo.