Shaip er nå en del av Ubiquity-økosystemet: Samme team – nå støttet av utvidede ressurser for å støtte kunder i stor skala. |

Forsterkende læring fra menneskelig tilbakemelding (RLHF)

RLHF

Definisjon

Forsterkende læring fra menneskelig tilbakemelding (RLHF) er en metode for å samkjøre AI-modeller med menneskelige verdier ved å innlemme menneskelige vurderinger i treningsprosessen. Den brukes ofte til å finjustere store språkmodeller.

Formål

Hensikten er å gjøre AI-utdata tryggere, mer nyttige og i tråd med menneskelige preferanser. RLHF forbedrer samtalesystemer ved å redusere skadelige, partiske eller irrelevante svar.

Viktigheten

  • Gir menneskelig tilsyn i AI-opplæring.
  • Forbedrer påliteligheten til AI-systemer.
  • Arbeidskrevende på grunn av behov for menneskelige annotasjoner.
  • Relatert til preferansemodellering og tilpasningsforskning.

Slik fungerer det

  1. Samle inn menneskelig tilbakemelding som sammenligner modellutfall.
  2. Tren en belønningsmodell basert på menneskelige preferanser.
  3. Bruk forsterkningslæring til å finjustere basismodellen.
  4. Evaluer ytelse mot samsvarsmål.
  5. Iterer med ytterligere tilbakemeldinger.

Eksempler (den virkelige verden)

  • OpenAI ChatGPT: finjustert med RLHF for tryggere svar.
  • Anthropics konstitusjonelle AI: styrt av prinsipper snarere enn direkte tilbakemeldinger.
  • InstructGPT: tidlig OpenAI-modell som demonstrerer RLHF.

Referanser / Videre lesning

Fortell oss hvordan vi kan hjelpe med ditt neste AI -initiativ.