La Ecuación Normal es una aproximación analítica a la Regresión Lineal con una función de coste de mínimos cuadrados. Podemos encontrar directamente el valor de θ sin utilizar el Descenso Gradiente. Seguir este enfoque es una opción eficaz y que ahorra tiempo cuando se trabaja con un conjunto de datos con características pequeñas.
La ecuación normal es la siguiente:
En la ecuación anterior,
θ : parámetros de la hipótesis que la definen mejor.
X : valor de la característica de entrada de cada instancia.
Y : valor de salida de cada instancia.
Matemáticas Detrás de la ecuación –
Dada la función de hipótesis
donde,
n : el nº de características del conjunto de datos.
x0 : 1 (para la multiplicación de vectores)
Nótese que se trata del producto punto entre los valores de θ y x. Así que para la conveniencia de resolver podemos escribirlo como :
El motivo en la Regresión Lineal es minimizar la función de coste :
donde,
xi : el valor de entrada de iih ejemplo de entrenamiento.
m : nº de instancias de entrenamiento
n : nº de características del conjunto de datos
yi : el resultado esperado de la ith instancia
Representemos la función de coste en forma de vector.
Hemos ignorado 1/2m aquí ya que no hará ninguna diferencia en el trabajo. Se utilizó para la conveniencia matemática, mientras que el cálculo de descenso de gradiente. Pero ya no es necesario aquí.
xij : valor de la característica jih en el ejemplo de entrenamiento iih.
Esto puede reducirse aún más a
Pero cada valor residual se eleva al cuadrado. No podemos simplemente elevar al cuadrado la expresión anterior. Como el cuadrado de un vector/matriz no es igual al cuadrado de cada uno de sus valores. Así que para obtener el valor al cuadrado, hay que multiplicar el vector/matriz por su transposición. Así, la ecuación final derivada es
Por lo tanto, la función de coste es
Así, obteniendo ahora el valor de θ mediante la derivada
Por lo tanto, esta es la Ecuación Normal finalmente derivada con θ dando el valor de coste mínimo.