Tamil datasett
தமிழ் தரவுத்தொகுப்பு
Lås opp kraften i tamilske taledatasett for ASR, TTS og konversasjonsbasert AI. Shaip tilbyr premium tamilske lyddatasett for å trene smartere språkmodeller.
Oversikt
Tittel (språk)
Tamilsk språkdatasett
Datasetttyper
Kundesenter, Generell samtale, Mediedata, Skriptet monolog
Land
India
Tekniske beskrivelser
Dette datasettet inkluderer uskriptede syntetiske agent-kunde-samtaler (5–15 minutter), naturlige telefonsamtaler mellom mennesker (15–60 minutter) og mediedata med transkripsjoner, og tilbyr varierte taledata for trening og evaluering av tale- og språkteknologier.
Bruk sak
ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
Datasettdetaljer
| Datasettype | Sampling Rate | Høyttalere | Kanal | Totalt antall timer | Totalt antall høyttalere |
|---|---|---|---|---|---|
| Call Center | 8 kHz | 2 høyttalere | dual | 124:23:52 | 484 |
| Call Center | 16 kHz | 2 høyttalere | Mono | 199:44:21 | 1,986 |
| Generell samtale | 8 kHz | 2 høyttalere | dual | 101:42:05 | 440 |
| Generell samtale | 48 kHz | 2 høyttalere | Mono | 80:21:16 | 141 |
| Mediedata | 16 kHz | Flere høyttalere | Mono | 43:07:01 | 32 |
| Manuskriptmonolog | 24 kHz | Enkelt høyttaler | Mono | 500:00:00 | På forespørsel |
Utvalgte klienter
Gir teamene mulighet til å bygge verdensledende AI-produkter.
Finner du ikke det du leter etter?
Nye hylledatasett samles inn på tvers av alle datatyper
Kontakt oss nå for å gi slipp på bekymringene for innsamling av lyd-/taletreningsdata