L’équation normale est une approche analytique de la régression linéaire avec une fonction de coût au moindre carré. Nous pouvons directement trouver la valeur de θ sans utiliser la descente de gradient. Suivre cette approche est une option efficace et un gain de temps lorsque sont travaillent avec un ensemble de données avec de petites caractéristiques.
L’équation normale est la suivante :
Dans l’équation ci-dessus,
θ : paramètres de l’hypothèse qui la définit le mieux.
X : valeur de la caractéristique d’entrée de chaque instance.
Y : valeur de sortie de chaque instance.
Maths derrière l’équation –
Donné la fonction d’hypothèse
où,
n : le nombre de caractéristiques dans l’ensemble de données.
x0 : 1 (pour la multiplication vectorielle)
Notez que c’est le produit scalaire entre les valeurs θ et x. Donc, pour la commodité de la résolution, nous pouvons l’écrire comme :
Le motif de la régression linéaire est de minimiser la fonction de coût :
où,
xi : la valeur d’entrée de iih exemple de formation.
m : nombre d’instances de formation
n : nombre. de caractéristiques de l’ensemble de données
yi : le résultat attendu de ith instance
Représentons la fonction de coût sous forme de vecteur.
nous avons ignoré 1/2m ici car cela ne fera aucune différence dans le travail. Il a été utilisé pour la commodité mathématique tout en calculant la descente de gradient. Mais il n’est plus nécessaire ici.
xij : valeur de la caractéristique jih dans l’exemple de formation iih.
Cela peut encore être réduit à
Mais chaque valeur résiduelle est élevée au carré. Nous ne pouvons pas simplement élever au carré l’expression ci-dessus. Comme le carré d’un vecteur/matrice n’est pas égal au carré de chacune de ses valeurs. Pour obtenir la valeur au carré, il faut donc multiplier le vecteur/matrice par sa transposition. Ainsi, l’équation finale dérivée est
Donc, la fonction de coût est
So, maintenant obtenir la valeur de θ en utilisant la dérivée
So, c’est l’équation normale finalement dérivée avec θ donnant la valeur de coût minimum.