Definisjon
AI-datainnsamling er prosessen med å samle rådata – tekst, lyd, bilder, video eller strukturerte poster – som brukes til å trene, validere og teste maskinlæringsmodeller. Det sikrer at modellene har representative eksempler på det virkelige problemet.
Formål
Hensikten er å bygge datasett som lar algoritmer lære mønstre effektivt. Pålitelig datainnsamling reduserer skjevheter og forbedrer modellnøyaktigheten på tvers av ulike miljøer og populasjoner.
Viktigheten
- Kvaliteten på innsamlede data påvirker direkte modellresultatene.
- Dårlig samling kan føre til partiske eller ubrukelige modeller.
- Mangfoldige kilder forbedrer generaliserbarheten og reduserer urettferdighet.
- Må følge etiske og juridiske standarder (f.eks. GDPR, HIPAA).
Slik fungerer det
- Definer hvilken type data som trengs basert på prosjektets mål.
- Identifiser kilder (sensorer, API-er, undersøkelser, opptak osv.).
- Samle inn data med riktig samtykke og personvernbeskyttelse.
- Lagre data med metadata for sporbarhet og kontekst.
- Klargjør data for senere annotering, rengjøring eller trening.
Eksempler (den virkelige verden)
- ImageNet: storskala bildedatasett for datasynforskning.
- Google Street View: data samlet inn for kart og visuell AI.
- Mozilla Common Voice: åpent datasett med taleopptak for ASR.
Referanser / Videre lesning
- Datablad for datasett — Gebru et al., ACM FAccT.
- Dataforberedelse for AI-systemer — NIST.
- ISO/IEC TR 20547-5: Referansearkitektur for stordata — ISO.


