Definisjon
Tekst-til-tale (TTS) er teknologien som konverterer skrevet tekst til muntlig tale ved hjelp av AI-modeller.
Formål
Hensikten er å gi naturlig stemmegjengivelse for tilgjengelighetsprogrammer, virtuelle assistenter og medieapplikasjoner.
Viktigheten
- Kritisk for tilgjengelighet for synshemmede brukere.
- Mye brukt i digitale assistenter og IVR-systemer.
- Risikerer at syntetiske stemmer brukes til svindel.
- Kvalitet avhenger av prosodi og naturlighet.
Slik fungerer det
- Inndatateksten behandles og normaliseres.
- Tekst blir konvertert til fonemer.
- Akustiske modeller genererer talefunksjoner.
- Vokodere syntetiserer bølgeformer.
- Utgangslyd leveres til brukerne.
Eksempler (den virkelige verden)
- Google Cloud TTS: genererer naturlige stemmer for apper.
- Amazon Polly: tekst-til-tale-tjeneste.
- Apple Siri: taleutgang fra tekst.
Referanser / Videre lesning
- Tacotron 2: Naturlig TTS med nevrale nettverk — Google Research.
- ISO/IEC 15938-4: Beskrivelse av multimedieinnhold.
- IEEE Signal Processing Magazine: TTS Systems.
- Tilpassede TTS-løsninger for dine unike krav


