Definisjon
Lydtranskripsjon er prosessen med å konvertere talespråk til skriftlig tekst. Den lager strukturerte tekstdata fra rå taleopptak.
Formål
Hensikten er å gjøre tale søkbar, analyserbar og brukbar for oppgaver innen naturlig språkbehandling. Det er mye brukt innen tilgjengelighets-, medie- og forretningsanalyse.
Viktigheten
- Aktiverer teksting og tilgjengelighetstjenester.
- Gir tekstinndata for trening av NLP-modeller.
- Kvaliteten avhenger av nøyaktigheten til konverteringen fra tale til tekst.
- Følsom for bakgrunnsstøy, aksenter og opptakskvalitet.
Slik fungerer det
- Spill inn eller importer lydfiler.
- Del opp talen i mindre enheter.
- Bruk automatisert talegjenkjenning (ASR) eller manuell transkripsjon.
- Korriger og valider tekst for nøyaktighet.
- Lagre transkripsjoner med tidsstempler eller metadata om nødvendig.
Eksempler (den virkelige verden)
- Rev: transkripsjonstjeneste for media og næringsliv.
- Otter.ai: AI-basert møtetranskripsjon i sanntid.
- YouTube: genererer teksting ved hjelp av ASR-modeller.
Referanser / Videre lesning
- Automatisk talegjenkjenning — NIST.
- ISO/IEC 15938-4: Beskrivelse av multimedieinnhold — ISO.
- Tale- og språkbehandling — Jurafsky og Martin, Stanford.


