Conversational AI: Automatisk talegjenkjenning

Over 8k lydtimer samlet inn, 800 timer transkribert for flerspråklig stemmeteknologi

Samtale ai

Introduksjon

India trengte en plattform som konsentrerer seg om å lage flerspråklige datasett og AI-baserte språkteknologiløsninger for å kunne tilby digitale tjenester på indiske språk. For å lansere dette initiativet, samarbeidet klienten med Shaip for å samle inn og transkribere indisk språk for å bygge flerspråklige talemodeller.

Volum

Timer med data samlet inn
10
Antall sider kommentert
10 +
Prosjektets varighet
< 1 måneder

Utfordringer

For å hjelpe kunden med deres taleteknologiske veikart for indiske språk, trengte teamet å innhente, segmentere og transkribere store mengder treningsdata for å bygge en AI-modell. De kritiske kravene til kunden var:

Datainnsamling

  • Skaff deg 8000 timer med treningsdata fra avsidesliggende steder i India
  • Leverandøren skal samle inn Spontane tale fra Aldersgrupper på 20-70 år
  • Sikre en mangfoldig blanding av foredragsholdere etter alder, kjønn, utdanning og dialekter
  • Hvert lydopptak skal være minst 16kHz med 16 bits/sample.
Datainnsamling

Datatranskripsjon

Følg detaljerte retningslinjer for transkripsjon rundt tegn og spesialsymboler, stavemåte og grammatikk, store bokstaver, forkortelser, sammentrekninger, individuelle talte bokstaver, tall, tegnsetting, akronymer og initialer, uflytende tale, uforståelig tale, ikke-målspråk, ikke-tale

Datatranskripsjon

Kvalitetssjekk og tilbakemelding

Alle opptak skal gjennomgå kvalitetsvurdering og validering, kun validerte taleopptak som skal leveres

Oppløsning

Med vår dype forståelse av konversasjons-AI, hjalp vi klienten med å samle inn, transkribere lyddataene med et team av ekspertsamlere, lingvister og annotatorer for å bygge et stort korpus av lyddata fra fjerntliggende deler av India.

Arbeidsomfanget for Shaip inkluderte, men var ikke begrenset til, å skaffe store mengder lydopplæringsdata, transkribere dataene og levere tilsvarende JSON-filer som inneholder metadataene [for både høyttalere og transkriberere. For hver høyttaler inkluderer metadataene en anonymisert høyttaler-ID, enhetsdetaljer, demografisk informasjon som kjønn, alder og utdanning, sammen med deres pinkode, sosioøkonomiske status, språk som snakkes og en oversikt over oppholdets varighet. For hver transkriberende inneholder dataene en anonymisert transkriberings-ID, demografiske detaljer som ligner på høyttalerne, deres transkripsjonsopplevelse og en grundig oversikt over språk de kan lese, skrive og snakke.

Shaip samlet 8000 timer med lyddata / Spontan tale i skala og transkribert 800 timer samtidig som ønsket kvalitetsnivå opprettholdes for å trene taleteknologi for komplekse prosjekter. Skjema for uttrykkelig samtykke ble tatt fra hver av deltakerne. Den/spontane talen som ble samlet inn var basert på bilder fra universitetet. Av 3500 bilder, 1000 er generiske og 2500 forholde seg til distriktsspesifikk kultur, festivaler osv. Bilder viser ulike domener som togstasjoner, markeder, vær og mer.

Datainnsamling

TilstanddistrikterLydtimerTranscription
(timer)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
West BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaNord+Sør Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Totalt8000800

Generelle retningslinjer

dannet

    • Lyd ved 16 kHz, 16 bits/sample.
    • Enkel kanal.
    • Rå lyd uten omkoding.

Stil

    • Spontan tale.
    • Setninger basert på bilder levert av universitetet. Av 3500 bilder er 1000 generiske og 2500 relatert til distriktsspesifikk kultur, festivaler osv. Bilder viser ulike domener som togstasjoner, markeder, vær og mer.

Opptaksbakgrunn

    • Innspilt i et stille, ekkofritt miljø.
    • Ingen smarttelefonforstyrrelser (vibrasjoner eller varsler) under opptak.
    • Ingen forvrengninger som klipping eller fjernfeltseffekter.
    • Vibrasjoner fra telefonen er uakseptable; eksterne vibrasjoner tåles hvis lyden er klar.

Høyttalerspesifikasjon

    • Aldersspenning fra 20-70 år med balansert kjønnsfordeling per bydel.
    • Minimum 400 morsmål i hvert distrikt.
    • Foredragsholdere bør bruke hjemmespråket/dialekten.
    • Samtykkeskjemaer er obligatoriske for alle deltakere.


Kvalitetssjekk og kritisk kvalitetssikring

QA-prosessen prioriterer kvalitetssikring av lydopptak og transkripsjoner. Lydstandarder fokuserer på presise stillheter, segmentvarighet, klarhet med én høyttaler og detaljerte metadata inkludert alder og sosioøkonomisk status. Transkripsjonskriterier legger vekt på taggnøyaktighet, ords sannhet og korrekte segmentdetaljer. Akseptreferansen tilsier at hvis mer enn 20 % av en lydbatch ikke oppfyller disse standardene, blir den avvist. For mindre enn 20 % avvik kreves erstatningsopptak med lignende profiler.

Datatranskripsjon

Retningslinjer for transkripsjon legger vekt på nøyaktighet og ordrett transkripsjon bare når ordene er klare og forståelige; uklare ord er merket som [uforståelige] eller [uhørbare] basert på problemet. Setningsgrenser i lang lyd er merket med , og ingen parafrasering eller korrigering av grammatiske feil er tillatt. Ordrett transkripsjon dekker feil, slanger og repetisjoner, men utelater falske starter, utfyllingslyder og hakking. Bakgrunns- og forgrunnsstøy blir transkribert med beskrivende tagger, mens egennavn, titler og tall følger spesifikke transkripsjonsregler. Høyttaleretiketter brukes for hver setning, og ufullstendige setninger er indikert med.

Prosjektarbeidsflyt

Arbeidsflyten beskriver lydtranskripsjonsprosessen. Det starter med onboarding og opplæring av deltakere. De tar opp lyd ved hjelp av en app, som lastes opp til en QA-plattform. Denne lyden gjennomgår kvalitetssjekker og automatisk segmentering. Teknologiteamet forbereder deretter segmenter for transkripsjon. Etter manuell transkripsjon er det et kvalitetssikringstrinn. Transkripsjoner leveres til klienten, og dersom de aksepteres, anses leveransen som komplett. Hvis ikke, gjøres revisjoner basert på tilbakemeldinger fra kunder.

Utfallet

Lyddataene av høy kvalitet fra ekspertlingvister vil gjøre det mulig for vår klient å nøyaktig trene og bygge flerspråklige talegjenkjenningsmodeller på forskjellige indiske språk med forskjellige dialekter innen den angitte tiden. Talegjenkjenningsmodellene kan brukes til å:

  • Overvinne språkbarrieren for digital inkludering ved å koble innbyggerne til initiativene på deres eget morsmål.
  • Fremmer digital styring
  • Katalysator for å danne et økosystem for tjenester og produkter på indiske språk
  • Mer lokalisert digitalt innhold innen domener av offentlig interesse, spesielt styring og politikk

Vi er i ærefrykt for Shaips ekspertise i AI-området for samtale. Oppgaven med å håndtere 8000 timer med lyddata sammen med 800 timer med transkripsjon over 80 forskjellige distrikter var mildt sagt monumental. Det var Shaips dype forståelse av de intrikate detaljene og nyansene i dette domenet som gjorde en vellykket gjennomføring av et så utfordrende prosjekt mulig. Deres evne til sømløst å administrere og navigere gjennom kompleksiteten til denne enorme datamengden, samtidig som de sikrer førsteklasses kvalitet, er virkelig prisverdig.

Gylden-5-stjerners

Akselerer din Conversational AI
applikasjonsutvikling med 100 %