Definisjon
Tekst-til-video er prosessen med å generere bevegelige videosekvenser fra naturlige språkforespørsler ved hjelp av AI-modeller.
Formål
Hensikten er å automatisere videoproduksjon for underholdning, reklame og utdanning.
Viktigheten
- Reduserer kostnadene for videoproduksjon.
- Reiser etiske og opphavsrettslige bekymringer.
- Tidlig fase sammenlignet med tekst-til-bilde.
- Beregningsmessig krevende.
Slik fungerer det
- Tren på parede tekst-video-datasett.
- Kod inn ledetekster i innebygde filer.
- Generer rammesekvenser ved hjelp av diffusjon eller GAN-er.
- Jevn bevegelse med modeller for tidsmessig konsistens.
- Render den endelige videoen.
Eksempler (den virkelige verden)
- Runway Gen-2: genererer korte videoer fra ledetekster.
- Pika Labs: Oppstartsbedrift innen generering av tekst-til-video med kunstig intelligens.
- Google Imagen Video: forskningssystem for videosyntese i høy oppløsning.
Referanser / Videre lesning
- Ho et al. «Imagen Video: Generering av tekst til video i høy oppløsning.» Google Research.
- Dokumentasjon for rullebane Gen-2.
- IEEE-transaksjoner om multimedia: Generativ videoforskning.


