Równanie normalne jest analitycznym podejściem do regresji liniowej z funkcją kosztu najmniejszego kwadratu. Możemy bezpośrednio znaleźć wartość θ bez użycia Gradient Descent. Podejście to jest efektywne i oszczędza czas, gdy pracujemy z zestawem danych z małymi cechami.
Równanie normalne jest następujące :
W powyższym równaniu,
θ : parametry hipotezy, które definiują ją najlepiej.
X : wejściowa wartość cechy każdej instancji.
Y : wyjściowa wartość każdej instancji.
Matematyka za równaniem –
Dając funkcję hipotezy
gdzie,
n : liczba cech w zbiorze danych.
x0 : 1 (dla mnożenia wektorów)
Zauważ, że jest to iloczyn kropkowy między wartościami θ i x. Tak więc dla wygody rozwiązywania możemy zapisać to jako :
Motywem w regresji liniowej jest minimalizacja funkcji kosztu :
gdzie,
xi : wartość wejściowa iih przykładu treningowego.
m : liczba instancji treningowych
n : liczba cech zbioru danych
. cech zbioru danych
yi : oczekiwany wynik i-tej instancji
Przedstawmy funkcję kosztu w postaci wektorowej.
Zignorowaliśmy tutaj 1/2m, ponieważ nie robi to żadnej różnicy w pracy. Był on używany dla wygody matematycznej podczas obliczania zejścia gradientowego. Ale tutaj nie jest to już potrzebne.
xij : wartość cechy jih w przykładzie treningowym iih.
Można to dalej zredukować do
Ale każda wartość rezydualna jest podniesiona do kwadratu. Nie możemy po prostu podnieść do kwadratu powyższego wyrażenia. Ponieważ kwadrat wektora / macierzy nie jest równy kwadratowi każdej z jego wartości. Tak więc, aby uzyskać wartość podniesioną do kwadratu, pomnóż wektor / matrycę z jej transpozycją. Tak więc, ostateczne wyprowadzone równanie to
Therefore, the cost function is
So, teraz otrzymujemy wartość θ za pomocą pochodnej
Więc jest to ostatecznie wyprowadzone równanie normalne z θ dające minimalną wartość kosztu.