MAE og RMSE - Hvilken måleenhed er bedst?

Sammenligning

Sammenligninger: Både MAE og RMSE udtrykker den gennemsnitlige modelforudsigelsesfejl i enheder af den pågældende variabel. Begge metrikker kan spænde fra 0 til ∞ og er ligeglade med retningen af fejlene. De er negativt orienterede scoringer, hvilket betyder, at lavere værdier er bedre.

Differencer: At tage kvadratroden af de gennemsnitlige kvadrerede fejl har nogle interessante implikationer for RMSE. Da fejlene kvadreres, før de gennemsnitliggøres, giver RMSE en relativt høj vægt til store fejl. Det betyder, at RMSE bør være mere nyttig, når store fejl er særligt uønskede. De tre tabeller nedenfor viser eksempler, hvor MAE er stabil og RMSE stiger, efterhånden som variansen i forbindelse med frekvensfordelingen af fejlstørrelser også stiger.

MAE og RMSE for tilfælde med stigende fejlvarians

Den sidste sætning er lidt af en mundfuld, men jeg synes, at den ofte bliver fejlfortolket og er vigtig at fremhæve.

RMSE stiger ikke nødvendigvis med variansen af fejlene. RMSE stiger med variansen af frekvensfordelingen af fejlstørrelser.

For at demonstrere dette kan man se på case 4 og case 5 i tabellerne nedenfor. Tilfælde 4 har et lige stort antal testfejl på 0 og 5, og tilfælde 5 har et lige stort antal testfejl på 3 og 4. Variansen af fejlene er større i case 4, men RMSE er den samme for case 4 og case 5.

Der kan være tilfælde, hvor variansen af frekvensfordelingen af fejlstørrelser (stadig en mundfuld) er af interesse, men i de fleste tilfælde (som jeg kan komme i tanke om) er variansen af fejlene af større interesse.

En anden implikation af RMSE-formlen, som ikke ofte diskuteres, har at gøre med stikprøvestørrelsen. Ved hjælp af MAE kan vi sætte en nedre og øvre grænse for RMSE.

≤ . RMSE-resultatet vil altid være større end eller lig med MAE. Hvis alle fejlene har samme størrelsesorden, er RMSE=MAE.
≤ , hvor n er antallet af testprøver. Forskellen mellem RMSE og MAE er størst, når hele forudsigelsesfejlen stammer fra en enkelt testprøve. Den kvadrerede fejl er i så fald lig med til for den enkelte prøve og 0 for alle andre prøver. Ved at tage kvadratroden er RMSE derefter lig med .

Med fokus på den øvre grænse betyder dette, at RMSE har en tendens til at blive stadig større end MAE, efterhånden som testprøvestørrelsen øges.

Dette kan være problematisk, når man sammenligner RMSE-resultater beregnet på testprøver af forskellig størrelse, hvilket ofte er tilfældet ved modelberegning i den virkelige verden.

MAE og RMSE – Hvilken måleenhed er bedst?

Sammenligning

Skriv et svar Annuller svar