Definisjon
Forhåndstrening er den første treningen av en maskinlæringsmodell på store datasett for generell bruk før finjustering av spesifikke oppgaver.
Formål
Hensikten er å tilby modeller med brede representasjoner som kan overføres til flere oppgaver, noe som reduserer data- og beregningskrav for nedstrøms tilpasning.
Viktigheten
- Grunnlag for moderne LLM-er og visjonsmodeller.
- Forbedrer ytelsen på tvers av ulike oppgaver.
- Kostbart når det gjelder data og beregninger.
- Krever nøye kuratering av datasett for å unngå skjevhet.
Slik fungerer det
- Samle massive generelle datasett (tekst, bilder).
- Definer uveiledede eller selvveiledede læringsoppgaver.
- Tren modeller til å lære generelle funksjoner.
- Ta vare på ferdigtrente vekter for gjenbruk.
- Finjuster mindre oppgavespesifikke datasett.
Eksempler (den virkelige verden)
- BERT har forhåndstrint Wikipedia og BooksCorpus.
- CLIP trent på bilde-tekst-par.
- GPT-modeller er forhåndstrent på storskala internetttekst.
Referanser / Videre lesning
- Devlin et al. «BERT: Forhåndstrening av dype toveistransformatorer.» NAACL 2019.
- Radford et al. «Språkmodeller er få-skutt-lærere.» NeurIPS 2020.
- OpenAI GPT-4 teknisk rapport.


