Definisjon
Dataannotering er prosessen med å merke rådata med tagger som gjør dem meningsfulle for AI-modeller. Eksempler inkluderer å merke bilder med objektkategorier eller å merke tekst med sentiment.
Formål
Hensikten er å lage treningsdatasett som lar AI lære mønstre i veiledet læring. Uten annotering ville mange AI-oppgaver ikke være mulige.
Viktigheten
- Gir «grunnsannheten» for trening av ML-modeller.
- Kvaliteten på annoteringer påvirker modellens nøyaktighet og rettferdighet.
- Tidskrevende og ressurskrevende oppgave.
- Krever ofte domeneekspertise (f.eks. medisinsk annotasjon).
Slik fungerer det
- Definer oppgaven og etikettkategoriene.
- Samle inn og forbehandle rådata.
- Bruk annoteringsverktøy for merking.
- Valider gjennom kvalitetskontroller.
- Eksporter merkede data for modelltrening.
Eksempler (den virkelige verden)
- Amazon Mechanical Turk: plattform for folkefinansiert annotering.
- Shaip: dataannoteringstjeneste for datasett for autonome kjøretøy.
- Merking av radiologiske bilder: Sykehus kommenterer skanninger for AI-diagnose.
Referanser / Videre lesning
- Dataannotering for AI — NIST.
- Annotering og merking av datasett — IEEE-transaksjoner om datateknikk.
- ISO/IEC 24617: Rammeverk for semantisk annotasjon — ISO.
- Hva er dataannotering – Shaip


