Definisjon
Tokenisering er prosessen med å dele tekst opp i mindre enheter (tokens) som ord, underord eller tegn, som fungerer som input til språkmodeller.
Formål
Hensikten er å standardisere tekst til håndterbare komponenter for trening og inferens i LLM-er.
Viktigheten
- Grunnleggende forbehandlingstrinn i NLP.
- Påvirker ordforrådets størrelse og effektivitet.
- Valg av tokenisering påvirker nøyaktighet og ytelse.
- Relatert til innebygginger og modelltrening.
Slik fungerer det
- Definer tokeniseringsskjema (ord, underord, tegn).
- Bruk tokenizer på inndatatekst.
- Tilordne tokener til numeriske ID-er.
- Mat tokener inn i modellen for behandling.
- Konverter utdatatokener tilbake til tekst.
Eksempler (den virkelige verden)
- Byteparkoding (BPE) brukt i GPT-modeller.
- WordPiece brukt i BERT.
- SentencePiece brukt i flerspråklig NLP.
Referanser / Videre lesning
- Sennrich et al. «Neural maskinoversettelse av sjeldne ord med underordenheter.» ACL.
- Google SentencePiece-dokumentasjon.
- Jurafsky og Martin. Tale- og språkbehandling.


