Definisjon
En stor språkmodell (LLM) er et nevralt nettverk trent på enorme tekstkorpora for å forstå og generere menneskelig språk. LLM-er bruker milliarder av parametere for å fange opp språklige mønstre.
Formål
Hensikten er å muliggjøre avanserte NLP-oppgaver som tekstgenerering, oppsummering og oversettelse. LLM-er brukes i chatboter, søke- og produktivitetsverktøy.
Viktigheten
- Driver moderne konversasjonsbasert AI.
- Risiko for skjevhet, feilinformasjon og hallusinasjoner.
- Høye beregnings- og miljøkostnader.
- Krever nøye tilpasning og styring.
Slik fungerer det
- Samle inn store tekstdatasett.
- Tokeniser tekst til numeriske representasjoner.
- Togtransformatormodeller med milliarder av parametere.
- Lær å forutsi neste token i kontekst.
- Finjuster eller tilpass til nedstrømsoppgaver.
Eksempler (den virkelige verden)
- GPT-4 (OpenAI): brukt i ChatGPT.
- PaLM (Google): storskala LLM for forskning og produkter.
- LLaMA (Meta): åpen forskningsfokusert LLM.
Referanser / Videre lesning
- Vaswani et al. «Oppmerksomhet er alt du trenger.» NeurIPS 2017.
- OpenAI GPT-4 systemkort.
- Stanford CRFM. «Grunnmodeller.»
- Alt du trenger å vite om LLM


