Definisjon
Tekst-til-bilde er en generativ AI-oppgave der modeller lager visuelle bilder basert på naturlige språklige instruksjoner.
Formål
Hensikten er å muliggjøre kreativ design, kunstgenerering og visualisering fra tekst.
Viktigheten
- Utvider menneskelig kreativitet og produktivitet.
- Reiter bekymringer om opphavsrett og feilinformasjon.
- Krever sikkerhetstiltak mot skadelige spørsmål.
- Relatert til diffusjonsmodeller og GAN-er.
Slik fungerer det
- Tren modellen på parede tekst-bilde-datasett.
- Kod tekst inn i innebygde filer.
- Tilordne tekstinnebygginger til bilderepresentasjoner.
- Generer bilder ved hjelp av diffusjons- eller GAN-teknikker.
- Avgrens med brukermeldinger eller begrensninger.
Eksempler (den virkelige verden)
- DALL·E (OpenAI): genererer kreative bilder fra tekst.
- Stabil diffusjon: modell for generering av bilder med åpen kildekode.
- MidJourney: Kunstgenerering drevet av kunst.
Referanser / Videre lesning
- Ramesh et al. «Generering av tekst til bilde uten skudd.» OpenAI.
- Stabil diffusjonsmodellkort — Stabilitet AI.
- IEEE datagrafikk og applikasjoner: Generativ AI i bildebehandling.


