Definisjon
Datamerking er prosessen med å tilordne kategorier, tagger eller attributter til rådata slik at maskinlæringsmodeller kan lære av dem. Det er sentralt for veiledet læring.
Formål
Hensikten er å gjøre rådatasett brukbare for opplæring og evaluering. Etiketter gir «svarene» modellene trenger under læring.
Viktigheten
- Kritisk for å bygge nøyaktige overvåkede ML-modeller.
- Dårlig merking reduserer systemets pålitelighet.
- Ofte arbeidskrevende og kostbart.
- Krever domeneekspertise innen felt som medisin eller jus.
Slik fungerer det
- Definer oppgaver og merk skjema.
- Segmenter rådata i enheter (bilder, setninger, lydklipp).
- Tildel etiketter manuelt eller via halvautomatiske verktøy.
- Utfør kvalitetskontroller og tester av samsvar mellom annotatorer.
- Eksporter merkede datasett for opplæring.
Eksempler (den virkelige verden)
- Shaip: merkingsdata for autonome kjøretøy.
- Kaggle-datasett: merket for ML-konkurranser.
- Radiologibildedatasett: merket av medisinske eksperter.
Referanser / Videre lesning
- Dataannotering for AI — NIST.
- Annotering og merking av datasett — IEEE-transaksjoner om datateknikk.
- ISO/IEC 24617: Rammeverk for semantisk annotasjon — ISO.
- Hva er datamerking? Alt en nybegynner trenger å vite – Shaip


