Definisjon
Multimodal AI kombinerer og behandler data fra flere modaliteter – som tekst, bilder, lyd eller video – for å generere resultater eller prediksjoner.
Formål
Hensikten er å bygge systemer som forstår informasjon mer som mennesker, som integrerer flere sanser. Det brukes i helsevesenet, robotikk og samtalesystemer.
Viktigheten
- Utvider muligheter utover enkeltmodalitets AI.
- Muliggjør rikere interaksjon mellom mennesker og kunstig intelligens.
- Krever avanserte arkitekturer for sammenslåing av ulike data.
- Øker kompleksiteten i opplæring og evaluering.
Slik fungerer det
- Samle multimodale datasett med justerte inndata (f.eks. tekst + bilder).
- Kod hver modalitet til vektorrepresentasjoner.
- Bruk fusjonsteknikker for å kombinere modaliteter.
- Tren modeller til å lære tverrmodale forhold.
- Generer resultater på tvers av én eller flere modaliteter.
Eksempler (den virkelige verden)
- CLIP (OpenAI): lenker bilder og tekst for søk.
- Google Gemini: multimodal modell som håndterer tekst, bilder og lyd.
- Systemer for bildeteksting: generer tekstbeskrivelser fra bilder.
Referanser / Videre lesning
- Baltrušaitis et al. «Multimodal maskinlæring: En undersøkelse.» IEEE TPAMI.
- OpenAI CLIP-papir.
- Stanford HAI: Multimodal AI Research.
- Hvordan multimodal AI fungerer


