I dag har vi noen snakkende roboter som chatboter, virtuelle assistenter og mer i hjemmene våre, bilsystemer, bærbare enheter, hjemmeautomatiseringsløsninger osv. Disse enhetene lytter nøyaktig til hva vi sier og hvordan vi sier og henter resultater eller utfører spesifikke oppgaver .
Og hvis du har brukt en assistent som Siri eller Alexa, vil du også innse at de blir særere for hver dag. Svarene deres er vittige, de snakker tilbake, de snuser, gir tilbake komplimenter og oppfører seg mer menneskelig enn noen av kollegene du kanskje kjenner. Vi tuller ikke. Ifølge PwC, 27 % av brukerne som samhandlet med deres nylige kundeservicemedarbeider visste ikke om de snakket med et menneske eller en chatbot.
Å utvikle slike intrikate samtalesystemer og enheter er svært komplekst og skremmende. Det er et helt annerledes ballspill med distinkte utviklingstilnærminger. Det er derfor vi tenkte at vi skulle dele det ned for deg for enklere forståelse. Så hvis du ønsker å utvikle en konversasjons-AI-motor eller en virtuell assistent, vil denne guiden hjelpe deg med å få klarhet.
Betydningen av konversasjons-AI
Etter hvert som teknologi blir et mer integrert aspekt av livene våre i form av nyere enheter og systemer, oppstår det et behov for å skyve barrierer, bryte konvensjoner og komme opp med nye måter å samhandle med dem på. Fra å bare bruke tilkoblet periferiutstyr som mus og tastatur, byttet vi til musematter som ga mer bekvemmelighet. Deretter migrerte vi til berøringsskjermer som tilbød ytterligere bekvemmelighet i å mate input og utføre oppgaver.
Med enheter som blir utvidelser av oss selv, låser vi nå opp et nytt medium for å styre gjennom stemme. Vi trenger ikke engang være i nærheten av en enhet for å betjene den. Alt vi trenger å gjøre er å bruke stemmen vår til å låse den opp og kommandere våre innganger. Fra et rom i nærheten, når du kjører, mens du bruker en annen enhet samtidig, utfører konversasjons-AI våre tiltenkte oppgaver sømløst. Så hvor skal vi begynne – det hele starter med høykvalitets taledata for å trene ML-modeller.
Grunnleggende om innsamling av taletreningsdata
Å samle inn og kommentere AI-treningsdata for samtale-AI er veldig forskjellig. Det er tonnevis av forviklinger involvert i menneskelige kommandoer, og forskjellige tiltak må implementeres for å sikre at alle aspekter er tilpasset for slagkraftige resultater. La oss se på noen av de grunnleggende prinsippene for taledata.
Naturlig språkforståelse (NLU)
For at chatbots og virtuelle assistenter skal forstå og svare på det vi tekster eller kommanderer, kalles en prosess NLU er implementert. Det står for Naturlig språkforståelse og involverer tre teknologikonsepter for å tolke og behandle ulike typer input.
Intent
Det hele starter med hensikt. Hva prøver en bestemt bruker å formidle, kommunisere eller oppnå gjennom en kommando? Leter brukeren etter informasjon? Venter de på oppdateringer for en handling? Befaler de en instruksjon som systemet skal utføre? Hvordan kommanderer de det? Er det gjennom et spørsmål eller en forespørsel? Alle disse aspektene hjelper maskiner med å forstå og klassifisere hensikter og formål for å komme opp med lufttette svar.
Ytringssamling
Det er forskjell på kommandoen «Hvor er nærmeste minibank?» og kommandoen "Finn meg en minibank i nærheten." Nå ville mennesker erkjenne at begge betyr det samme, men maskiner må forklares med denne forskjellen. De er de samme når det gjelder hensikt, men hvordan intensjonen har blitt formet er helt annerledes.
Ytringsinnsamling handler om å definere og kartlegge ulike ytringer og fraser mot spesifikke mål for nøyaktig utførelse av oppgaver og svar. Teknisk sett jobber datamerkingsspesialister med taledata eller tekstdata for å hjelpe maskiner med å skille dette.
Enhetsutvinning
Hver setning har spesifikke ord eller uttrykk som vektlegges, og det er denne vektleggingen som fører til en tolkning av kontekst og formål. Maskiner, som de stive systemene de er, må skje-mates med slike enheter. For eksempel, "Hvor kan jeg finne strenger fra gitaren min nær 6th Avenue?"
Hvis du avgrenser setningen, er finn entitet en, strenger er to, gitaren er tre og 6th avenue er 4. Disse enhetene er klubbet sammen av maskiner for å hente passende resultater, og for at dette skal skje, jobber eksperter i backend.
Designe dialoger for konversasjons-AI
Målet med AI har hovedsakelig vært å gjenskape menneskelig atferd gjennom gester, handlinger og svar. Det bevisste menneskesinnet har den medfødte evnen til å forstå kontekst, hensikt, tone, følelser og andre faktorer og reagere deretter. Men hvordan kan maskiner skille disse aspektene?
Designe dialoger for samtale AI er veldig kompleks og enda viktigere, ganske umulig å rulle ut en universell modell. Hvert individ har en annen måte å tenke, snakke og svare på. Selv i svar, artikulerer vi alle våre tanker unikt. Så maskinene må lytte og reagere deretter.
Dette er imidlertid ikke jevnt også. Når mennesker snakker, kommer faktorer som aksenter, uttale, etnisitet, språk og mer inn, og det er ikke lett for maskiner å misforstå og feiltolke ord og svare tilbake. Et bestemt ord kan forstås av maskiner på en myriade av måter når det dikteres av en indianer, en brite, en amerikaner og en meksikaner. Det er tonnevis av språkbarrierer som spiller inn, og den mest praktiske måten å komme opp med et responssystem på er gjennom visuell programmering som er flytskjemabasert.
Gjennom dedikerte blokker for gester, svar og triggere, forfattere og eksperter kan hjelpe maskiner med å utvikle en karakter. Dette er mer som en algoritmemaskin kan bruke for å komme opp med de riktige svarene. Når en input mates, flyter informasjonen gjennom tilsvarende faktorer, noe som fører til riktig respons for maskinene å levere.
Tast D for mangfold
Som vi nevnte, er menneskelig interaksjon veldig unik. Mennesker over hele verden kommer fra ulike samfunnslag, bakgrunner, nasjonaliteter, demografi, etnisitet, aksenter, diksjon, uttale og mer.
For at en samtalebot eller et system skal være universelt operabelt, må det trenes med så forskjellige treningsdata som mulig. Hvis for eksempel en modell kun har blitt trent med taledata fra ett bestemt språk eller etnisitet, vil en ny aksent forvirre systemet og tvinge det til å levere feil resultater. Dette er ikke bare pinlig for bedriftseiere, men også fornærmende for brukere.
Det er derfor utviklingsfasen bør involvere AI-treningsdata fra en rik pool av forskjellige datasett sammensatt av mennesker fra alle mulige bakgrunner. Jo flere aksenter og etnisiteter systemet ditt forstår, jo mer universelt ville det være. Dessuten, det som ville irritere brukerne mer er ikke feil henting av informasjon, men manglende forståelse av inndataene deres i utgangspunktet.
Å eliminere skjevheter bør være en hovedprioritet, og en måte selskaper kan gjøre dette på er ved å velge crowdsourced data. Når du crowdsourcer taledataene eller tekstdataene dine, lar du folk fra hele verden bidra til kravene dine, noe som gjør datapoolen din bare sunn (Les vår blog å forstå fordelene og fallgruvene ved å outsource data til crowdsource-arbeidere). Nå vil modellen din forstå forskjellige aksenter og uttaler og svare deretter.
Veien forover
Å utvikle samtale-AI er like vanskelig som å oppdra et spedbarn. Den eneste forskjellen er at spedbarnet til slutt vil vokse til å forstå ting og bli bedre til å kommunisere autonomt. Det er maskinene som må presses konsekvent. Det er flere utfordringer på dette området for øyeblikket, og vi bør erkjenne det faktum at vi har noen av de mest revolusjonerende AI-systemene for samtale som oppstår til tross for disse utfordringene. La oss vente og se hva fremtiden bringer for våre vennlige chatboter og virtuelle assistenter. I mellomtiden, hvis du har tenkt å få konversasjons-AI som Google Home utviklet for bedriften din, ta kontakt med oss for dine AI-treningsdata og merknadsbehov.