Definisjon
Automatisert talegjenkjenning (ASR) er teknologien som konverterer talespråk til tekst automatisk ved hjelp av AI-modeller. Den driver transkripsjon og stemmedrevne applikasjoner.
Formål
Hensikten er å la maskiner forstå menneskelig tale. Det brukes i stemmeassistenter, dikteringsverktøy, kundeservice og tilgjengelighetsteknologier.
Viktigheten
- Kjerneteknologien bak talegrensesnitt.
- Bidrar til å bryte ned barrierer for funksjonshemmede.
- Nøyaktigheten varierer med språk, aksent og bakgrunnsstøy.
- Krever kontinuerlig forbedring med nye data.
Slik fungerer det
- Ta opp lydinngang via en mikrofon eller fil.
- Behandle og normalisere lydsignalet.
- Uttrekk av funksjoner (f.eks. fonemer, akustiske modeller).
- Anvende språkmodeller for å tolke tale kontekstuelt.
- Skriv ut tekst for videre bruk.
Eksempler (den virkelige verden)
- Apple Siri: ASR brukt i stemmeassistent.
- Google Cloud Speech-to-Text API: transkripsjon for apper.
- Microsoft Azure Cognitive Services: ASR for bedriftsapplikasjoner.
Referanser / Videre lesning
- Automatisk talegjenkjenning — NIST.
- Talegjenkjenning — IEEE Signal Processing Society.
- Tale- og språkbehandling — Jurafsky og Martin, Stanford.
- Hva er ASR (automatisk talegjenkjenning) – Shaip


