Shaip er nå en del av Ubiquity-økosystemet: Samme team – nå støttet av utvidede ressurser for å støtte kunder i stor skala. |

Tokenisering i LLM-er

Tokenisering i LLM-er

Definisjon

Tokenisering er prosessen med å dele tekst opp i mindre enheter (tokens) som ord, underord eller tegn, som fungerer som input til språkmodeller.

Formål

Hensikten er å standardisere tekst til håndterbare komponenter for trening og inferens i LLM-er.

Viktigheten

  • Grunnleggende forbehandlingstrinn i NLP.
  • Påvirker ordforrådets størrelse og effektivitet.
  • Valg av tokenisering påvirker nøyaktighet og ytelse.
  • Relatert til innebygginger og modelltrening.

Slik fungerer det

  1. Definer tokeniseringsskjema (ord, underord, tegn).
  2. Bruk tokenizer på inndatatekst.
  3. Tilordne tokener til numeriske ID-er.
  4. Mat tokener inn i modellen for behandling.
  5. Konverter utdatatokener tilbake til tekst.

Eksempler (den virkelige verden)

  • Byteparkoding (BPE) brukt i GPT-modeller.
  • WordPiece brukt i BERT.
  • SentencePiece brukt i flerspråklig NLP.

Referanser / Videre lesning

  • Sennrich et al. «Neural maskinoversettelse av sjeldne ord med underordenheter.» ACL.
  • Google SentencePiece-dokumentasjon.
  • Jurafsky og Martin. Tale- og språkbehandling.

Fortell oss hvordan vi kan hjelpe med ditt neste AI -initiativ.