Definisjon
Tekstdatainnsamling er prosessen med å samle inn skriftlig språk fra kilder som bøker, nettsteder eller chattelogger for bruk i AI-opplæring.
Formål
Hensikten er å lage korpus for NLP- og LLM-utvikling.
Viktigheten
- Gir råmateriale for språkmodeller.
- Tar opp spørsmål om opphavsrett og lisenser.
- Datamangfold påvirker rettferdighet og nøyaktighet.
- Må filtrere ut skadelig eller irrelevant innhold.
Slik fungerer det
- Identifiser tekstkilder (nett, dokumenter, transkripsjoner).
- Gjennomsøk eller skrap tekst med tillatelse.
- Rengjør og normaliser innhold.
- Lagre med metadata for sporbarhet.
- Brukes i førtrening eller finjustering.
Eksempler (den virkelige verden)
- Vanlig gjennomgang: stort nettkorpus.
- Wikipedia-dumper: datasett for strukturert tekst.
- BooksCorpus: brukes til opplæring av BERT.
Referanser / Videre lesning
- Felles krypstiftelse.
- Jurafsky og Martin. Tale- og språkbehandling.
- ISO/IEC TR 20547-5: Referansearkitektur for stordata.
- Saksspesifikk tekstdatainnsamling


