Definisjon
En multimodal språkmodell er en utvidelse av LLM-er som kan behandle og generere på tvers av tekst og andre modaliteter som bilder, lyd eller video.
Formål
Hensikten er å lage AI-systemer som er i stand til å gi rikere forståelse og interaksjon utover ren tekst. Disse modellene er nyttige for virtuelle assistenter, tilgjengelighetsverktøy og robotikk.
Viktigheten
- Støtter integrering av visuell og auditiv kontekst i svar.
- Driver nye applikasjoner som visuell spørsmålssvar.
- Beregningsmessig dyrt og komplekst å trene.
- Deler risikoer for hallusinasjoner og skjevhet fra LLM-er.
Slik fungerer det
- Samle store multimodale datasett (tekst + bilder/lyd).
- Tren med transformatorer tilpasset flere modaliteter.
- Juster innebygginger på tvers av modaliteter for interoperabilitet.
- Finjuster spesifikke multimodale oppgaver.
- Implementer for multimodal interaksjon i den virkelige verden.
Eksempler (den virkelige verden)
- GPT-4 med Vision (OpenAI): behandler tekst og bilder.
- Flamingo (DeepMind): læring i få trinn for multimodale oppgaver.
- Google Gemini: integrerer flere modaliteter for resonnement.
Referanser / Videre lesning
- Alayrac et al. «Flamingo: En visuell språkmodell.» DeepMind.
- OpenAI GPT-4 teknisk rapport.
- Stanford CRFM-rapport om stiftelsesmodeller.
- Hva er store multimodale modeller (LMM)?


