Definisjon
Tale-til-tekst (STT) er prosessen med å konvertere talespråk til skriftlig tekst automatisk ved hjelp av AI-modeller. Det er nært knyttet til ASR.
Formål
Hensikten er å gjøre muntlig innhold tilgjengelig og søkbart. Det er mye brukt innen transkripsjon, tilgjengelighet og digitale assistenter.
Viktigheten
- Støtter tilgjengelighet for hørselshemmede brukere.
- Tilbyr transkripsjoner for møter og forelesninger.
- Nøyaktigheten avhenger av aksenter og støyforhold.
- Brukes i nesten alle stemmedrevne applikasjoner.
Slik fungerer det
- Ta opp lydinngang.
- Forbehandle og normalisere lydsignal.
- Bruk ASR-modeller for å gjenkjenne ord.
- Transkripsjon av utdatatekst.
- Gjennomgå eller korriger med menneskelig tilsyn om nødvendig.
Eksempler (den virkelige verden)
- Google Cloud tale-til-tekst API.
- Microsoft Azure Speech Services.
- Transkripsjon av Otter.ai-møter.
Referanser / Videre lesning
- Automatisk talegjenkjenning — NIST.
- ISO/IEC 15938-4: Beskrivelse av multimedieinnhold.
- Jurafsky og Martin. Tale- og språkbehandling.
- Hva er tale-til-tekst-teknologi og hvordan fungerer det


