Kasusstudie: Ytringssamling
Levert 7M+ ytringer for å bygge flerspråklige digitale assistenter på 13 språk
Virkelig verdensløsning
Data som driver globale samtaler
Behovet for Utterance-trening oppstår fordi ikke alle kunder bruker de nøyaktige ordene eller setningene mens de samhandler eller stiller spørsmål til stemmeassistentene sine i et skriptformat. Det er derfor spesifikke stemmeapplikasjoner må trenes på spontan taledata. For eksempel: "Hvor ligger det nærmeste sykehuset?" "Finn et sykehus i nærheten av meg" eller "Er det et sykehus i nærheten?" alle indikerer den samme søkehensikten, men er formulert annerledes.
Problem
For å utføre kundenes Digital Assistants taleveikart for verdensomspennende språk, trengte teamet å skaffe store mengder treningsdata for talegjenkjennings-AI-modellen. De kritiske kravene til kunden var:
- Skaff deg store mengder treningsdata (forespørsler fra én høyttaler på ikke mer enn 3-30 sekunder) for talegjenkjenningstjenester på 13 globale språk
- For hvert språk vil leverandøren generere tekstmeldinger for høyttalere å ta opp (med mindre
klientrekvisita) og transkribere den resulterende lyden. - Gi lyddata og transkripsjon av innspilte ytringer med tilsvarende JSON-filer
som inneholder metadata for alle opptak. - Sikre en mangfoldig blanding av foredragsholdere etter alder, kjønn, utdanning og dialekt
- Sørg for en mangfoldig blanding av opptaksmiljøer i henhold til spesifikasjonene.
- Hvert lydopptak skal være minst 16kHz, men helst 44kHz
"Etter å ha evaluert mange leverandører, valgte klienten Shaip på grunn av deres ekspertise innen konversasjons-AI-prosjekter. Vi var imponert over Shaips prosjektgjennomføringskompetanse, deres ekspertise til å kilde, transkribere og levere de nødvendige ytringene fra ekspertlingvister på 13 språk innenfor strenge tidslinjer og med den nødvendige kvaliteten.
Oppløsning
Med vår dype forståelse av konversasjons-AI, hjalp vi klienten med å samle inn, transkribere og kommentere dataene med et team av ekspertlingvister og annotatorer for å trene deres AI-drevne talebehandling flerspråklige Voice Suite.
Arbeidsomfanget for Shaip inkluderte, men var ikke begrenset til, innhenting av store mengder lydopplæringsdata for talegjenkjenning, transkribere lydopptak på flere språk for alle språk på vår Tier 1 og Tier 2 språkveikart, og levere tilsvarende JSON filer som inneholder metadataene. Shaip samlet inn ytringer på 3-30 sekunder i skala samtidig som de opprettholdt ønskede kvalitetsnivåer som kreves for å trene ML-modeller for komplekse prosjekter.
- Lyd innsamlet, transkribert og kommentert: 22,250 timer
- Støttede språk: 13 (dansk, koreansk, saudiarabisk-arabisk, nederlandsk, fastlands- og taiwanesisk kinesisk, fransk-kanadisk, meksikansk spansk, tyrkisk, hindi, polsk, japansk, russisk)
- Antall ytringer: 7M +
- Tidslinje: 7-8 måneder
Mens vi samlet inn lydytringer på 16 kHz, sørget vi for en sunn blanding av høyttalere etter alder, kjønn, utdanning og dialekter i forskjellige opptaksmiljøer.
Resultat
Ytringslyddataene av høy kvalitet fra ekspertlingvister gjorde det mulig for klienten å trene sin flerspråklige talegjenkjenningsmodell nøyaktig på 13 Global Tier 1 & 2-språk. Med gullstandard treningsdatasett kan klienten tilby intelligent og robust digital assistanse for å løse fremtidige problemer i den virkelige verden.
Vår ekspertise
Anbefalte ressurser
Kjøperhåndbok
Kjøperveiledning: Conversational AI
Chatboten du snakket med kjører på et avansert AI-system for samtaler som er trent, testet og bygget ved hjelp av tonnevis av talegjenkjenningsdatasett.
Blogg
State of Conversational AI 2021
Conversational AI 2021-infografikken snakker om hva som er Conversational AI, dens utvikling, typer, Conversational AI-marked etter region, brukstilfeller, utfordringer, etc.
Blogg
3 Hindringer for utviklingen av konversasjonell AI
Shaip starter utviklingen av konversasjons-AI som et kundeengasjementverktøy ved å tilby de nødvendige kommenterte lyddataene på over 50 språk.
Fortell oss hvordan vi kan hjelpe med ditt neste AI -initiativ.