Definisjon
Modellevaluering er prosessen med å vurdere hvor godt en maskinlæringsmodell yter på usynlige data ved hjelp av målinger som nøyaktighet, presisjon, gjenkjenning eller F1-score.
Formål
Hensikten er å validere modellens ytelse, oppdage overtilpasning og sikre pålitelighet før utrulling. Det gir bevis på at modellene oppfyller de tiltenkte målene.
Viktigheten
- Sikrer at modeller generaliserer utover treningsdata.
- Veileder forbedringer i design og opplæring.
- Hjelper med å sammenligne konkurrerende algoritmer.
- Støtter regulatorisk og etisk ansvarlighet.
Slik fungerer det
- Del data inn i trenings-, validerings- og testsett.
- Tren modell på treningsdata.
- Evaluer prediksjoner på testdata ved hjelp av målinger.
- Analyser feil og skjevheter.
- Iterer for å forbedre ytelsen.
Eksempler (den virkelige verden)
- Kaggle-konkurranser: modeller evaluert med holdte testsett.
- Helsevesenets AI: modeller evaluert for sensitivitet og spesifisitet.
- Autonom kjøring med kunstig intelligens: evaluert med kjørescenarier fra den virkelige verden.
Referanser / Videre lesning
- Han et al. Maskinlæring: Et sannsynlighetsperspektiv. MIT Press.
- NIST AI-risikostyringsrammeverk.
- IEEE-transaksjoner om mønsteranalyse og maskinintelligens.
- En nybegynnerveiledning til evaluering av store språkmodeller


