Få nå 50% AV* på Conversational AI Off-the-Shelf Datasett
Tale- og lyddatasett for chatbots, taleassistenter, taleaktiverte enheter.
*Begrenset periodetilbud
Godkjent av industriledere
Detaljer | søkeord | Hyllevare språkdatasett | Call Center-samtaler 8khz* | Generiske samtaler 8khz* | Media og podcaster 16khz* | Ytring/ scripted monolog 16khz* | Totalt volum i timer | Dialekter dekket | Lydformat | Teksttranskripsjonsformat | Bruk sak | kilde | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
afrikaans | Afrikaans lyddatasett | 600 | 900 | 1500 | Afrikaans snakket i Afrika | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Arabisk | Arabisk lyddatasett | 800 | 1500 | 2300 | Arabisk fra Gulf-landene | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
kinesisk | Kinesisk lyddatasett | 2000 | 2000 | kinesere fra Kina | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
Dansk | Dansk lyddatasett | 400 | 600 | 2000 | 3000 | Dansk fra Danmark | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
Dutch | Nederlandsk lyddatasett | 2000 | 2000 | nederlandsk fra Nederland | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
Engelsk - AAVE Accent | Engelsk - AAVE (African American Vernacular English) lyddatasett | 500 | 500 | 1000 | Den folkelige varianten (noen ganger kjent som AAVE, vanligvis snakket av det store flertallet av afroamerikanere i arbeider- og middelklassen) og den mer standard varianten (vanligvis snakket av middelklasse afroamerikanere i formelle og offentlige situasjoner), men med sterkere vekt på folkemunne. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Engelsk - Boston/New York Accent | Engelsk - Boston/New York lyddatasett | 225 | 225 | 350 | 800 | Dette er en samling av flere regionale aksenter som snakkes i og rundt byene Boston, New York og Philadelphia. Disse aksentene kan høres ut som ikke-lokalbefolkningen, men er forskjellige fra andre amerikanske aksenter. Til tross for noe lokalt vokabular som er forskjellig fra andre deler av den engelsktalende verden, er disse aksentene gjensidig forståelige med engelsk som snakkes andre steder. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
Engelsk - kinesisk aksent | Engelsk - kinesisk aksent lyddatasett | 150 | 300 | 450 | Høyttalere som snakker kinesisk som førstespråk og som flyttet/immigrerte til USA som tenåringer/voksne og lærte engelsk som andrespråk. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Engelsk - Deep South Accent | Engelsk - Deep South Audio Dataset | 275 | 275 | 450 | 1000 | Høyttalere fra (i) Texas; (ii) North Carolina, South Carolina, Georgia; (iii) New Orleans; (iv) Florida panhandle; (v) Tennessee, Arkansas, Michigan. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
Engelsk - Hispanic Accent | Engelsk - Hispanic Accented Audio Dataset | 400 | 400 | 800 | Hispanic English refererer til variantene av amerikansk engelsk som snakkes av latinamerikanske amerikanere med ulik nasjonal arv. Hovedfokuset var på meksikanske amerikanere, foredragsholdere av ulik nasjonal opprinnelse (f.eks. Mexico, Puerto Rico, Den dominikanske republikk, Ecuador, Cuba, etc.) og fra forskjellige regioner (f.eks. California, New York, Florida) også. Inkluderte foredragsholdere var som snakker spansk som førstespråk, så vel som talere av latinamerikansk opprinnelse som snakker spansk har et arvespråk. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Engelsk - New Zealand aksent | Engelsk - New Zealand lyddatasett | 250 | 750 | 1000 | Høyttalere på begge øyene, inkludert en blanding av yngre høyttalere (<40 år) og eldre høyttalere (>40 år) i like proporsjoner. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Engelsk - Singapore aksent | Engelsk - Singapore lyddatasett | 400 | 600 | 1000 | Både Standard Singapore English og Colloquial Singapore English. Singaporeanere med forskjellig etnisk bakgrunn (f.eks. kinesisk, malaysisk, indisk, osv.) og med forskjellig utdanningsnivå. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Engelsk - Sør-Afrika aksent | Engelsk - Sør-Afrika lyddatasett | 400 | 600 | 1000 | Representanter fra ulike sosioøkonomiske klasser og etnologisk bakgrunn (f.eks. sørafrikanere med europeisk, afrikansk, indisk eller blandet bakgrunn). | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Engelsk - irsk aksent | Engelsk - irsk lyddatasett | 500 | 500 | Engelsk snakket i Irland | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
Engelsk - skotsk aksent | Engelsk - skotsk lyddatasett | 800 | 800 | Engelsk snakket av skotsk | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
Engelsk - walisisk aksent | Engelsk - walisisk lyddatasett | 800 | 800 | walisisk engelsk | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
Fransk kanadisk | Fransk kanadisk lyddatasett | 1000 | 1000 | Kanadisk fransk | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
hebraisk | Hebraisk lyddatasett | 750 | 750 | 1500 | hebraisk i Israel | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Indonesisk | Indonesisk lyddatasett | 1000 | 1000 | 2000 | Bahasa indonesisk | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Japansk | Japansk lyddatasett | 2000 | 2000 | Japansk fra Japan | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
Koreansk | Koreansk lyddatasett | 100 | 200 | 1500 | 1800 | Høyttalere spredt over hele Sør-Korea. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
Malay | Malayisk lyddatasett | 500 | 500 | 1000 | Malayisk i Malaysia | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Meksikansk spansk | Meksikansk spansk lyddatasett | 1250 | 1250 | Meksikansk fra Mexico | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
polsk | Polsk lyddatasett | 250 | 2000 | 2250 | polsk fra Polen | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Russisk | Russisk lyddatasett | 2000 | 2000 | Russisk fra Russland | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
swahili | Swahili lyddatasett | 350 | 650 | 1000 | sørafrikansk og kenyansk swahili | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Svensk | Svensk lyddatasett | 350 | 650 | 1000 | svensk i Sverige | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Taiwan kinesisk | Taiwan kinesisk lyddatasett | 1000 | 1000 | kinesisk fra Taiwan | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
Thailandsk | Thai lyddatasett | 350 | 450 | 800 | Et uformelt register brukt mellom venner, | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
tyrkisk | Tyrkisk lyddatasett | 2000 | 2000 | Tyrkisk fra Tyrkia | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||||
vietnamesisk | Vietnamesisk lyddatasett | 600 | 400 | 1000 | Nordlige (f.eks. Hanoi), sentrale og sørlige (f.eks. Ho Chi Minh-byen). | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Hindi | Hindi lyddatasett | 800 | 2000 | 2800 | Hindi i India, spesielt i nord-, øst- og vest-regioner | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Hinglish | Indisk engelsk lyddatasett | 300 | 500 | 800 | Samlet fra urbane indiske byer som er økonomiske knutepunkter i landet på grunn av økende økonomiske muligheter. Slike steder kan være Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||
Engelsk | Engelsk lyddatasett | 700 | 700 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | |||||
kannada | Kannada lyddatasett | 60 | 100 | 40 | 200 | Kannada fra Karnataka, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
malayalam | Malayalam lyddatasett | 60 | 100 | 40 | 200 | Malayalam fra Kerala, Lakshadweep og Puducherry | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
Oriya | Oriya lyddatasett | 60 | 100 | 40 | 200 | Oriya fra deler av Odisha, Vest-Bengal, Jharkhand og Chhattisgarh | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
punjabi | Punjabi lyddatasett | 60 | 100 | 40 | 200 | Punjabi fra Punjab, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
Tamilsk | Tamil lyddatasett | 60 | 100 | 240 | 400 | Tamil fra Tamil Nadu, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
telugu | Telugu lyddatasett | 100 | 950 | 950 | 2000 | Telugu fra Andhra Pradesh, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
Bengalsk | Bengalsk lyddatasett | 60 | 100 | 40 | 200 | Bengali fra Vest-Bengal, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
gujarati | Gujarati lyddatasett | 60 | 100 | 40 | 200 | Gujarati fra Gujarat, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
marathi | Marathi lyddatasett | 60 | 100 | 40 | 200 | Marathi fra Maharashtra, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt | ||
Assamesisk | Assamisk lyddatasett | 60 | 100 | 40 | 200 | Assamisk fra Asssam, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakt Kontakt |
Dyp ekspertise innen Conversational AI
Conversational AI eller Chatbots eller Virtual / Digital Assistants er bare like smarte som teknologien og dataene bak dem. Hos Shaip tilbyr vi deg et bredt sett av det diversifiserte lyddatasettet for Natural Language Processing (NLP) som etterligner samtaler med ekte mennesker som lar deg bringe AI til live. Med vår dype forståelse hjelper vi deg med å bygge og lokalisere AI-aktiverte talemodeller, med ytterste presisjon med rike og strukturerte datasett på flere språk fra hele verden. Vi tilbyr flerspråklig lydinnsamling, lydtranskripsjon og lydkommentartjenester basert på dine krav, mens vi fullt ut tilpasser ønsket hensikt, ytringer og demografisk distribusjon.
Skriftlig talesamling
Spontane talesamling
Transkripsjon av lyddata
Datamerking og merking
Shaip lar deg trene din Conversational AI-plattform nøyaktig slik at den kan:
- Snakk, tekst og chat sømløst på tvers av flere kanaler.
- Lær av eksisterende interaksjoner i form av chat, stemmetranskripsjoner, transaksjoner osv. og foreslå og snakke, basert på disse læringene.
- Forstå intensjonen bak menneskelig tale og fjern tvetydighet i forståelsen av menneskelig språk.
- Samhandle med deg på en-til-en-basis og kan bli opplært til å identifisere brukere og huske tidligere samtaler.
En verdensleder innen samtale-AI-treningsdata
Timer med lyddata på over 100 språk – hentet, transkribert og kommentert
Taledatalisensiering
20 40 timer med taledata på over 55 språk og dialekter som dekker en rekke av XNUMX+ emner fra forskjellige domener, f.eks. Call-center, debatter, generelle samtaler, taler, podcaster, etc.
Innsamling av taledata
Samle lyd- og taledata (monolog, 2-personers samtale, menneske-bot-chat) på over 100 språk fra hele verden, tilpasset dine AI-krav.
Transkripsjon av taledata
Kostnadseffektiv lydtranskripsjon eller lydkommentarer gjennom en sterk arbeidsstyrke på 30,000 XNUMX samarbeidspartnere med garantert TAT, nøyaktighet og besparelser
Fremskynd utviklingen av Conversational AI-appen din med Audio Collection & Audio Annotation Services
Shaip-fordelen
Skala
Vi kan hente, skalere og levere lyddata fra hele verden på flere språk og dialekter basert på dine behov.
Kompetanse
Vi har den rette ekspertisen angående nøyaktig og objektiv datainnsamling, transkripsjon og annotering av gullstandard.
Network
Et nettverk av 30,000 XNUMX+ kvalifiserte bidragsytere, som raskt kan bli tildelt datainnsamlingsoppgaver for å bygge AI-treningsmodeller og oppskaleringstjenester.
Teknologi
Vi har en fullstendig AI-basert plattform med proprietære verktøy og prosesser for å utnytte arbeidsflytadministrasjonen 24*7 døgnet rundt.
Agility
Vi tilpasser oss endringer i kundekrav veldig raskt og hjelper til med å akselerere AI-utvikling med kvalitetstaledata 5-10 ganger raskere enn konkurrentene.
Sikkerhet
Vi legger stor vekt på datasikkerhet og personvern og er også sertifisert for å håndtere svært regulerte sensitive data.
Hva vi gjør best
Treningsdata
Få merket data av høyeste kvalitet på en brøkdel av tiden. Den er gullstandard, pålitelig og klar til å trene AI- og ML-modellene dine for å oppnå de høyeste ytelsesnivåene.
Datainnsamling, merking og merknad
Med Shaip får du 15+ års dokumentert ekspertise i å samle inn, transkribere og kommentere kvalitetsdata. Med vår globale arbeidsstyrke kan vi samle inn data fra hele verden, og deretter tilby merkings- og merknadstjenester med den perfekte mengden ferdighetsnivå og ekspertise som kreves for dataene dine.
Datakataloger og lisensiering
Med vårt enorme lager av millioner av datasett kan du samle inn og organisere etter behov. Vi kan deretter lisensiere disse kvalitetsdataene for dine spesifikke AI- og ML-brukskrav. I tillegg er disse dataene tilgjengelige til en brøkdel av prisen hvis du skulle lage dem selv.
Vil du bygge ditt eget datasett?
Kontakt oss nå for å finne ut hvordan vi kan samle inn et tilpasset datasett for din unike AI-løsning.