Definisjon
Tekstmerking er prosessen med å tilordne kategorier eller tagger til tekst, for eksempel sentiment, emne eller navngitte enheter.
Formål
Hensikten er å transformere råtekst til strukturerte data for veiledede NLP-oppgaver.
Viktigheten
- Muliggjør trening av klassifiserings- og utvinningsmodeller.
- Kvalitet påvirker modellens rettferdighet og nøyaktighet.
- Krever domenespesifikk ekspertise for spesialiserte oppgaver.
- Arbeidskrevende i stor skala.
Slik fungerer det
- Definer etikettkategorier.
- Del teksten opp i enheter (setninger, dokumenter).
- Annotatorer tildeler etiketter.
- Valider avtalen mellom kommentatorer.
- Eksporter merket tekst for opplæring.
Eksempler (den virkelige verden)
- Yelp-anmeldelser merket med sentimentalitet.
- Datasett for klassifisering av spam vs. skinke-e-post.
- Juridisk tekst med kommenteringer for kontraktsklausuler.
Referanser / Videre lesning
- Pang & Lee. «Meningsutvinning og sentimentanalyse.»
- Bender & Friedman. «Datasetninger for NLP.» ACL 2018.
- Dokumentasjon for datasett med klemmende ansikter.
- Nøyaktig tekstmerking for maskinlæring


