Kasusstudie: Conversational AI
Over 3 timer med data samlet inn, segmentert og transkribert for å bygge ASR på 8 indiske språk
BHASHINI, Indias AI-drevne språkoversettelsesplattform, er en viktig del av Digital India-initiativet.
Bhashini-plattformen er designet for å gi verktøy for kunstig intelligens (AI) og Natural Language Processing (NLP) til MSME, startups og uavhengige innovatører som en offentlig ressurs. Målet er å fremme digital inkludering ved å gjøre det mulig for indiske borgere å samhandle med landets digitale initiativer på deres morsmål.
I tillegg har det som mål å utvide tilgjengeligheten av internettinnhold på indiske språk betydelig. Dette er spesielt rettet mot områder av offentlig interesse som styresett og politikk, vitenskap og teknologi osv. Dette vil følgelig oppmuntre innbyggerne til å bruke internett på sitt eget språk, og fremme deres aktive deltakelse.
Utnytt NLP for å muliggjøre et mangfoldig økosystem av bidragsytere, samarbeidende enheter og innbyggere med det formål å overskride språkbarrierer, og dermed sikre digital inkludering og myndiggjøring
Virkelig verdensløsning
Slipp løs kraften til lokalisering med data
India trengte en plattform som ville konsentrere seg om å lage flerspråklige datasett og AI-baserte språkteknologiløsninger for å kunne tilby digitale tjenester på indiske språk. For å lansere dette initiativet, samarbeidet Indian Institute of Technology, Madras (IIT Madras) med Shaip for å samle inn, segmentere og transkribere indisk språkdatasett for å bygge flerspråklige talemodeller.
Utfordringer
For å hjelpe kunden med deres taleteknologiske veikart for indiske språk, trengte teamet å innhente, segmentere og transkribere store mengder treningsdata for å bygge en AI-modell. De kritiske kravene til kunden var:
Datainnsamling
- Skaff deg 3000 timer med treningsdata på 8 indiske språk med 4 dialekter per språk.
- For hvert språk vil leverandøren samle inn Extempore Speech og
Samtaletale fra aldersgrupper på 18-60 år - Sikre en mangfoldig blanding av høyttalere etter alder, kjønn, utdanning og dialekter
- Sørg for en mangfoldig blanding av opptaksmiljøer i henhold til spesifikasjonene.
- Hvert lydopptak skal være minst 16kHz, men helst 44kHz
Datasegmentering
- Lag talesegmenter på 15 sekunder og tidsstemple lyden til millisekunder for hver gitt høyttaler, type lyd (tale, babling, musikk, støy), vendinger, ytringer og fraser i en samtale
- Lag hvert segment for sitt målrettede lydsignal med en 200-400 millisekunders polstring ved start og slutt.
- For alle segmenter må følgende objekter fylles ut, dvs. starttid, sluttid, segment-ID, lydstyrkenivå, lydtype, språkkode, høyttaler-ID, etc.
Datatranskripsjon
- Følg detaljerte retningslinjer for transkripsjon rundt tegn og spesialsymboler, stavemåte og grammatikk, store bokstaver, forkortelser, sammentrekninger, individuelle talte bokstaver, tall, tegnsetting, akronymer, uflytende, tale, uforståelig tale, ikke-målspråk, ikke-tale osv.
Kvalitetssjekk og tilbakemelding
- Alle opptak skal gjennomgå kvalitetsvurdering og validering, kun validert tale som skal leveres
Oppløsning
Med vår dype forståelse av konversasjons-AI, hjalp vi klienten med å samle, segmentere og transkribere dataene med et team av ekspertsamlere, lingvister og annotatorer for å bygge et stort korpus av lyddatasett på 8 indiske språk
Arbeidsomfanget for Shaip inkluderte, men var ikke begrenset til, innhenting av store mengder lydopplæringsdata, segmentering av lydopptakene i flere, transkribere dataene og levering av tilsvarende JSON-filer som inneholder metadataene [SpeakerID, Age, Gender, Language, Dialect,
Morsmål, kvalifikasjon, yrke, domene, filformat, frekvens, kanal, type lyd, antall høyttalere, antall fremmedspråk, brukt oppsett, smalbånd eller bredbåndslyd, etc.].
Shaip samlet inn 3000 timer med lyddata i skala samtidig som de opprettholdt ønsket kvalitetsnivå som kreves for å trene taleteknologi for komplekse prosjekter. Skjema for uttrykkelig samtykke ble tatt fra hver av deltakerne.
1. Datainnsamling