Srovnání
Podobnosti: MAE i RMSE vyjadřují průměrnou chybu předpovědi modelu v jednotkách zájmové proměnné. Obě metriky mohou nabývat hodnot od 0 do ∞ a je lhostejné, jakým směrem se chyby pohybují. Jsou to negativně orientovaná skóre, což znamená, že nižší hodnoty jsou lepší.
Rozdíly: Užití druhé odmocniny z průměrných kvadratických chyb má zajímavé důsledky pro RMSE. Vzhledem k tomu, že chyby jsou před zprůměrováním kvadratizovány, dává RMSE poměrně velkou váhu velkým chybám. To znamená, že RMSE by měla být užitečnější v případech, kdy jsou velké chyby obzvláště nežádoucí. V následujících třech tabulkách jsou uvedeny příklady, kdy je MAE stabilní a RMSE roste s tím, jak roste i rozptyl spojený s rozdělením četností velikostí chyb.
Poslední věta je trochu krkolomná, ale myslím, že je často nesprávně interpretována a je důležité ji zdůraznit.
RMSE nemusí nutně růst s rozptylem chyb. RMSE roste s rozptylem rozdělení četností velikostí chyb.
Pro demonstraci uvažujme případ 4 a případ 5 v tabulkách níže. Případ 4 má stejný počet testovacích chyb 0 a 5 a případ 5 má stejný počet testovacích chyb 3 a 4. Rozptyl chyb je větší v případě 4, ale RMSE je stejná pro případ 4 i případ 5.
Mohou nastat případy, kdy je zajímavý rozptyl rozdělení četností velikostí chyb (to je pořád plná huba), ale ve většině případů (které mě napadají) je zajímavější rozptyl chyb.
Další důsledek vzorce RMSE, o kterém se často nemluví, souvisí s velikostí vzorku. Pomocí MAE můžeme stanovit dolní a horní mez pro RMSE.
- ≤ . Výsledek RMSE bude vždy větší nebo roven MAE. Pokud mají všechny chyby stejnou velikost, pak RMSE=MAE.
- ≤ , kde n je počet testovacích vzorků. Rozdíl mezi RMSE a MAE je největší, když všechny chyby předpovědi pocházejí z jediného testovacího vzorku. Čtvercová chyba se pak pro tento jediný testovací vzorek rovná 0 a pro všechny ostatní vzorky 0. Vezmeme-li odmocninu, pak se RMSE rovná .
Zaměříme-li se na horní hranici, znamená to, že RMSE má tendenci být s rostoucí velikostí testovacího vzorku stále větší než MAE.
To může být problematické při porovnávání výsledků RMSE vypočtených na různě velkých testovacích vzorcích, což je v reálném modelování častý případ.
.