Definisjon
Forsterkende læring fra menneskelig tilbakemelding (RLHF) er en metode for å samkjøre AI-modeller med menneskelige verdier ved å innlemme menneskelige vurderinger i treningsprosessen. Den brukes ofte til å finjustere store språkmodeller.
Formål
Hensikten er å gjøre AI-utdata tryggere, mer nyttige og i tråd med menneskelige preferanser. RLHF forbedrer samtalesystemer ved å redusere skadelige, partiske eller irrelevante svar.
Viktigheten
- Gir menneskelig tilsyn i AI-opplæring.
- Forbedrer påliteligheten til AI-systemer.
- Arbeidskrevende på grunn av behov for menneskelige annotasjoner.
- Relatert til preferansemodellering og tilpasningsforskning.
Slik fungerer det
- Samle inn menneskelig tilbakemelding som sammenligner modellutfall.
- Tren en belønningsmodell basert på menneskelige preferanser.
- Bruk forsterkningslæring til å finjustere basismodellen.
- Evaluer ytelse mot samsvarsmål.
- Iterer med ytterligere tilbakemeldinger.
Eksempler (den virkelige verden)
- OpenAI ChatGPT: finjustert med RLHF for tryggere svar.
- Anthropics konstitusjonelle AI: styrt av prinsipper snarere enn direkte tilbakemeldinger.
- InstructGPT: tidlig OpenAI-modell som demonstrerer RLHF.
Referanser / Videre lesning
- Christiano et al. «Dyp forsterkende læring fra menneskelige preferanser.» NeurIPS 2017.
- OpenAI InstructGPT-artikkel.
- NIST AI-risikostyringsrammeverk.
- Hva er forsterkende læring med menneskelig tilbakemelding (RLHF)?


