Innsamling av stemmedata i bilen

Kasusstudie: Innsamling av nøkkelsetninger for stemmeaktiverte systemer i bilen

Samling av nøkkelsetninger

Det er en økende etterspørsel etter stemmeaktiverte systemer i bil i bilindustrien, noe som omdefinerer hvordan vi bruker mobilitetskjøretøyene våre.

Bilindustrien har raskt tatt i bruk stemmeaktiverte systemer, med store aktører som Ford, Tesla og BMW som har integrert avansert stemmegjenkjenning i kjøretøyene sine. Innen 2022 ble det anslått at over 50 % av nye biler hadde talegjenkjenningsfunksjoner. Disse integrasjonene har som mål å øke sikkerheten, slik at sjåførene kan betjene navigasjons-, underholdnings- og kommunikasjonsfunksjoner uten distraksjoner.

Markedsverdien for stemmegjenkjenning i biler ble anslått å overstige 1 milliard dollar innen 2023, noe som indikerer en økende etterspørsel etter håndfri, intelligent interaksjon i bilen.

Biler

Forskning tyder på at innen 2022 vil 73 % av sjåførene bruke en stemmeassistent i bilen.

Automotive Voice Recognition System Market ble verdsatt til USD 2.01 milliarder i 2021, og forventes å nå USD 3.51 milliarder innen 2027, og registrerer en CAGR på rundt 8.07 %.

Virkelig verdensløsning

Data som driver stemmeaktiverte systemer

Stemmeaktiverte systemer i biler øker sikkerheten og brukervennligheten. De lar sjåfører få tilgang til navigasjon, ringe, sende tekstmeldinger og kontrollere musikk uten å ta hendene fra rattet eller blikket fra veien. Ved å svare på verbale kommandoer reduserer disse systemene distraksjon, fremmer multitasking og sikrer kontinuerlig fokus på kjøring. 

Klienten er en global leder innen samtaleintelligens som tilbyr stemme-AI-løsninger som lar bedrifter tilby utrolige samtaleopplevelser til sine kunder. De jobbet med ledende bilfirmaer for å trene opp sine stemmeaktiverte systemer med merkede nøkkelfraser og trengte Shaips ekspertise innen innsamling av lyddata.

Virkelig løsning
Utfordringer

Utfordringer

  • Crowd Sourcing: Rekrutter 2800+ morsmål per språk globalt.
  • Datainnsamling: Sikre 200 12+ meldinger på XNUMX språk innen fastsatt tidsramme.
  • Kontekst- og hensiktsgjenkjenning: For å forstå brukerforespørsler riktig, måtte systemene trenes på forskjellige varianter for samme nøkkelsetning.
  • Håndtering av bakgrunnsstøy: Adresser bakgrunnsstøy fra den virkelige verden for nøyaktighet i ML-modellen.
  • Redusere skjevhet: Skaff stemmeprøver fra ulike demografiske grupper for å sikre inkludering.
  • Lydspesifikasjoner: 16khz 16bits PCM, mono, enkeltkanal, WAV; ingen behandling.
  • Opptaksmiljø: Opptak skal ha ren lyd uten bakgrunnsstøy eller forstyrrelser. Nøkkelsetninger som skal tas opp med vanlig tale.
  • Kvalitetskontroll:  Alle taleopptak vil gjennomgå kvalitetsvurdering og validering, kun validerte taleopptak vil bli levert. Hvis Shaip ikke oppfyller de avtalte kvalitetsstandardene, vil Shaip levere data på nytt uten ekstra kostnad

Oppløsning

Shaip med sin ekspertise innen Conversational AI-området gjorde det mulig for kunden:

  • Datainnsamling: 208 12 nøkkelfraser/merkemeldinger samlet på 2800 globale språk fra XNUMX foredragsholdere i den angitte tidsrammen
  • Diverse aksenter og dialekter: Rekrutterte spesialister fra hele verden, dyktige i de ønskede aksenter og dialekter.
  • Kontekst- og hensiktsgjenkjenning: Hver foredragsholder fikk i oppgave å spille inn nøkkelsetningene i 20 forskjellige varianter, noe som gjorde det mulig for ML-modellene å forstå brukerforespørsler nøyaktig når det gjelder kontekst og hensikt.
  • Håndtering av bakgrunnsstøy: For å sikre perfekt lydkvalitet sørget vi for at nøkkelsetningene ble fanget opp i et rolig miljø med støynivåer under 40dB, uten bakgrunnsforstyrrelser som TV, radio, musikk, tale eller gatelyder.
  • Redusere skjevhet: For å minimere skjevhet engasjerte vi individer fra forskjellige regioner og opprettholdt en balansert demografisk representasjon med 50 % menn og 50 % kvinner, som spenner over aldersgrupper fra 18 til 60 år.
  • Retningslinjer for opptak: Nøkkelsetningene ble fanget opp i et konsistent, normalt talemønster, uten noen variasjoner som rask eller sakte tempo. 2 sekunders stillhet både i begynnelsen og slutten for å garantere at ingen del av talen ble utilsiktet klippet.
  • Opptaksformat: Lyden ble tatt opp ved 16kHz, 16-bit PCM i mono, ved bruk av en enkelt kanal, og lagret i WAV-filformatet. Lyden forblir ubehandlet, noe som betyr at det ikke ble brukt kompresjon, romklang eller EQ.
  • Kvalitet: Hvert taleopptak ble gjenstand for strenge kvalitetskontroller og validering. Kun opptak som besto denne vurderingen ble levert. Alle filer som ikke oppfylte de avtalte kvalitetsstandardene ble tatt opp på nytt og levert uten ekstra kostnader
Oppløsning
Utfallet

Utfallet

Den høykvalitets merkevare-nøkkelsetningen lyddata eller talemeldinger vil gjøre det mulig for bilselskapene og deres kunder:

  1. Merkevarebygging og identitet: Stemmemeldinger med spesifikke merkesetninger hjelper bedrifter med å skape en direkte og minneverdig forbindelse mellom brukeren og merkevaren som forbedrer merkevaren.
  2. Brukervennlighet: Talekommandoer gjør det lettere for sjåfører å samhandle med kjøretøy uten å ta hendene fra rattet eller blikket fra veien, og dermed øke trafikksikkerheten.
  3. Funksjonalitet: Talekommandoer gjør tilgang og kontroll av bilfunksjoner mer intuitiv. Enten det er navigasjon, medieavspilling eller klimakontroll.
  4. Integrasjon med andre systemer: Mange stemmeaktiverte systemer er integrert med smarttelefoner, smarthjemenheter og andre IoT-enheter. For eksempel kan en bruker være i stand til å be bilen om å slå på lysene hjemme når de nærmer seg hjem.
  5. Konkurransefordel: Å tilby avanserte stemmeaktiverte systemer kan være et salgsargument og en differensiering. Kjøpere ser etter den nyeste teknologien når de vurderer å kjøpe ny bil.
  6. Fremtidssikring: Etter hvert som teknologien utvikler seg og IoT blir mer integrert i hverdagen, posisjonerer det å ha et robust stemmeaktivert system bilselskaper til å være mer tilpasningsdyktige til fremtidig teknologi.
  7. Inntektsmuligheter: Ytterligere inntektsgenereringsmuligheter, dvs. talesystemer tilbyr anbefalinger eller integrerte e-handelsopplevelser (som å bestille mat eller finne tjenester i nærheten) som kan gi tilknyttede inntekter.
Gylden-5-stjerners

Da vi begynte å hente talemeldinger til bilindustrien, var utfordringene mange. Å fange mangfoldet i tale, aksenter og toner var avgjørende for å representere kundens globale klientell. Shaip skilte seg ikke bare ut som en leverandør, men som en sann partner. Deres engasjement for å sikre et mangfoldig utvalg av stemmer fra forskjellige regioner var prisverdig. De gikk utover bare å samle stemmer; de skjønte nyansene i prosjektbehovene våre, og garanterer førsteklasses opptak. Deres feilfrie overholdelse av lydinnsamlingsstandarder viste deres profesjonalitet og dedikasjon til prosjektet.

Akselerer din Conversational AI
applikasjonsutvikling med 100 %