Kasusstudie: Conversational AI

Over 3 timer med data samlet inn, segmentert og transkribert for å bygge ASR på 8 indiske språk

Ytringssamling
Regjeringen har som mål å gi innbyggerne enkel tilgang til internett og digitale tjenester på deres eget morsmål gjennom Bhashini-prosjektet.

BHASHINI, Indias AI-drevne språkoversettelsesplattform, er en viktig del av Digital India-initiativet.

Bhashini-plattformen er designet for å gi verktøy for kunstig intelligens (AI) og Natural Language Processing (NLP) til MSME, startups og uavhengige innovatører som en offentlig ressurs. Målet er å fremme digital inkludering ved å gjøre det mulig for indiske borgere å samhandle med landets digitale initiativer på deres morsmål.

I tillegg har det som mål å utvide tilgjengeligheten av internettinnhold på indiske språk betydelig. Dette er spesielt rettet mot områder av offentlig interesse som styresett og politikk, vitenskap og teknologi osv. Dette vil følgelig oppmuntre innbyggerne til å bruke internett på sitt eget språk, og fremme deres aktive deltakelse.

Utnytt NLP for å muliggjøre et mangfoldig økosystem av bidragsytere, samarbeidende enheter og innbyggere med det formål å overskride språkbarrierer, og dermed sikre digital inkludering og myndiggjøring

Virkelig verdensløsning

Slipp løs kraften til lokalisering med data

India trengte en plattform som ville konsentrere seg om å lage flerspråklige datasett og AI-baserte språkteknologiløsninger for å kunne tilby digitale tjenester på indiske språk. For å lansere dette initiativet, samarbeidet Indian Institute of Technology, Madras (IIT Madras) med Shaip for å samle inn, segmentere og transkribere indisk språkdatasett for å bygge flerspråklige talemodeller.

Utfordringer

For å hjelpe kunden med deres taleteknologiske veikart for indiske språk, trengte teamet å innhente, segmentere og transkribere store mengder treningsdata for å bygge en AI-modell. De kritiske kravene til kunden var:

Datainnsamling

  • Skaff deg 3000 timer med treningsdata på 8 indiske språk med 4 dialekter per språk.
  • For hvert språk vil leverandøren samle inn Extempore Speech og
    Samtaletale fra aldersgrupper på 18-60 år
  • Sikre en mangfoldig blanding av høyttalere etter alder, kjønn, utdanning og dialekter
  • Sørg for en mangfoldig blanding av opptaksmiljøer i henhold til spesifikasjonene.
  • Hvert lydopptak skal være minst 16kHz, men helst 44kHz

Datasegmentering

  • Lag talesegmenter på 15 sekunder og tidsstemple lyden til millisekunder for hver gitt høyttaler, type lyd (tale, babling, musikk, støy), vendinger, ytringer og fraser i en samtale
  • Lag hvert segment for sitt målrettede lydsignal med en 200-400 millisekunders polstring ved start og slutt.
  • For alle segmenter må følgende objekter fylles ut, dvs. starttid, sluttid, segment-ID, lydstyrkenivå, lydtype, språkkode, høyttaler-ID, etc.

Datatranskripsjon

  • Følg detaljerte retningslinjer for transkripsjon rundt tegn og spesialsymboler, stavemåte og grammatikk, store bokstaver, forkortelser, sammentrekninger, individuelle talte bokstaver, tall, tegnsetting, akronymer, uflytende, tale, uforståelig tale, ikke-målspråk, ikke-tale osv.

Kvalitetssjekk og tilbakemelding

  • Alle opptak skal gjennomgå kvalitetsvurdering og validering, kun validert tale som skal leveres

Oppløsning

Med vår dype forståelse av konversasjons-AI, hjalp vi klienten med å samle, segmentere og transkribere dataene med et team av ekspertsamlere, lingvister og annotatorer for å bygge et stort korpus av lyddatasett på 8 indiske språk

Arbeidsomfanget for Shaip inkluderte, men var ikke begrenset til, innhenting av store mengder lydopplæringsdata, segmentering av lydopptakene i flere, transkribere dataene og levering av tilsvarende JSON-filer som inneholder metadataene [SpeakerID, Age, Gender, Language, Dialect,
Morsmål, kvalifikasjon, yrke, domene, filformat, frekvens, kanal, type lyd, antall høyttalere, antall fremmedspråk, brukt oppsett, smalbånd eller bredbåndslyd, etc.]. 

Shaip samlet inn 3000 timer med lyddata i skala samtidig som de opprettholdt ønsket kvalitetsnivå som kreves for å trene taleteknologi for komplekse prosjekter. Skjema for uttrykkelig samtykke ble tatt fra hver av deltakerne.

1. Datainnsamling

2. Datasegmentering

  • Lyddataene som ble samlet inn ble videre delt inn i talesegmenter på 15 sekunder hver og tidsstemplet til millisekunder for hver gitt høyttaler, type lyd, svinger, ytringer og fraser i en samtale
  • Laget hvert segment for sitt målrettede lydsignal med en 200-400 millisekunders polstring ved starten og slutten av et lydsignal.
  • For alle segmenter var følgende objekter tilstede og fylt, dvs. starttid, sluttid, segment-ID, lydstyrkenivå (høy, normal, stille), primær lydtype (tale, babling, musikk, støy, overlapping), språkkodehøyttaler ID, transkripsjon etc.

3. Kvalitetssjekk og tilbakemelding

  • Alle opptak ble vurdert for kvalitet og kun validerte taleopptak med WER på 90 % og TER på 90 % ble levert
  • Kvalitetssjekkliste fulgt:
       » Maks 15 sekunder segmentlengde
       » Transkripsjon fra spesifikke domener, nemlig: Vær, ulike typer nyheter, helse, landbruk, utdanning, jobber eller finans
       » Lav bakgrunnsstøy
       » Ingen lydklipp av – Ingen forvrengning
       » Korrekt lydsegmentering for transkripsjon

4. Datatranskripsjon
Alle talte ord, inkludert nøling, utfyllingsord, falsk start og andre verbale tics, ble fanget nøyaktig i transkripsjonen. Vi fulgte også detaljerte retningslinjer for transkripsjon rundt store og små bokstaver, stavemåte, store bokstaver, forkortelser, sammentrekninger, tall,
tegnsetting, akronymer, flytende tale, ikke-tale lyder osv. Arbeidsflyten som følges for innsamling og transkripsjon er dessuten som nedenfor:

Utfallet

Lyddataene av høy kvalitet fra ekspertlingvister vil gjøre det mulig for Indian Institute of Technology – Madras, å nøyaktig trene og bygge flerspråklige talegjenkjenningsmodeller på 8 indiske språk med forskjellige dialekter innen den angitte tiden. Talegjenkjenningsmodellene kan brukes til å:

  • Overvinne språkbarrieren for digital inkludering ved å koble innbyggerne til initiativene på deres eget morsmål.
  • Fremmer digital styring
  • Katalysator for å danne et økosystem for tjenester og produkter på indiske språk
  • Mer lokalisert digitalt innhold innen domener av offentlig interesse, spesielt styring og politikk
Gylden-5-stjerners

Vi var imponert over Shaips ekspertise innen konversasjons-AI-rom. Deres samlede prosjektgjennomføringskompetanse fra innkjøp, segmentering, transkribering og levering av de nødvendige opplæringsdataene fra ekspertlingvister på 8 språk innenfor strenge tidslinjer og retningslinjer; samtidig som den akseptable kvalitetsstandarden opprettholdes.»

Akselerer din Conversational AI
applikasjonsutvikling med 100 %

Utvalgte klienter

Gir teamene mulighet til å bygge verdensledende AI-produkter.