Arabisk & thai & vietnamesisk & hindi & engelsk & kinesisk språkdatasett

Bruk sak: OCR
Format: Bilde
Telle: 150k
merknad: Ja
Beskrivelse: Arabisk & thai & vietnamesisk & hindi & engelsk & kinesisk språkdatasett
Arabisk tekstdatasett
Bruk sak: OCR
Format: Bilde
Telle: 1k
merknad: Ja
Beskrivelse: Det arabiske tekstdatasettet inneholder en samling teksteksempler skrevet på arabisk. Det inkluderer ulike former for innhold, som nyhetsartikler, innlegg på sosiale medier, litteratur og dialog, som spenner over ulike emner og skrivestiler. Dette datasettet brukes til oppgaver som naturlig språkbehandling (NLP), tekstklassifisering, sentimentanalyse og maskinoversettelse i arabiske språkapplikasjoner.
Kinesisk og engelsk og tibetansk og uigurisk språkdatasett
Bruk sak: OCR
Format: Bilde
Telle: 38k
merknad: Ja
Beskrivelse: Kinesisk og engelsk og tibetansk og uigurisk språkdatasett
Kinesisk og engelsk menydatasett
Bruk sak: OCR
Format: Bilde
Telle: 60k
merknad: Ja
Beskrivelse: Kinesisk og engelsk menydatasett inneholder bilder eller teksteksempler av restaurantmenyer som inneholder både kinesisk og engelsk. Den inkluderer forskjellige fonter, oppsett og menystrukturer, og presenterer tospråklige rettnavn, beskrivelser og priser. Dette datasettet er nyttig for oppgaver som optisk tegngjenkjenning (OCR), maskinoversettelse og menydigitalisering i flerspråklige innstillinger.
Kinesisk håndskrevet komposisjonsdatasett
Bruk sak: OCR
Format: Bilde
Telle: 3k
merknad: Ja
Beskrivelse: Det kinesiske håndskrevne komposisjonsdatasettet inneholder eksempler på håndskrevet kinesisk tekst, inkludert komposisjoner, essays og annen lang tekst. Den har forskjellige håndskriftstiler og kompleksitetsnivåer, og brukes til oppgaver som håndskriftgjenkjenning, tekstanalyse og maskinlæringsmodellopplæring.
Kinesisk WIFI-forespørselsdatasett
Bruk sak: OCR
Format: Bilde
Telle: 1k
merknad: Ja
Beskrivelse: Det kinesiske WIFI-forespørselsdatasettet består av teksteksempler funnet i WIFI-meldinger og påloggingsskjermer skrevet på kinesisk. Den inkluderer vanligvis ulike meldinger, instruksjoner og feilmeldinger knyttet til tilkobling til eller administrasjon av WIFI-nettverk. Dette datasettet brukes til oppgaver som tekstgjenkjenning, naturlig språkbehandling og forbedring av brukergrensesnitt for nettverkstilkobling.
Engelsk og kinesisk håndskriftdatasett
Bruk sak: OCR
Format: Bilde
Telle: 12k
merknad: Ja
Beskrivelse: Datasettet for engelsk og kinesisk håndskrift inneholder håndskrevne eksempler på både engelsk og kinesisk, og viser ulike skrivestiler og karakterkompleksiteter. Den brukes vanligvis til å trene og evaluere modeller for håndskriftgjenkjenning, støtte flerspråklig tekstanalyse og annen relatert forskning. Datasettet inkluderer et mangfoldig utvalg av tegn, sifre, ord og setninger på begge språk.
Engelsk og kinesisk Shopsign-datasett
Bruk sak: OCR
Format: Bilde
Telle: 30k
merknad: Ja
Beskrivelse: Det engelske og kinesiske Shopsign-datasettet inkluderer bilder av butikkskilt med både engelsk og kinesisk tekst. Den fanger opp forskjellige skiltelementer som butikknavn, annonser, kampanjer og veibeskrivelser, vist i forskjellige fonter, stiler og formater. Dette datasettet brukes til oppgaver som tekstgjenkjenning og gjenkjenning, flerspråklig sceneforståelse og forbedring av datasynsmodeller for tolkning av tospråklig skilting.
Engelsk og kinesisk spesialvinkeltekstdatasett
Bruk sak: OCR
Format: Bilde
Telle: 50k
merknad: Ja
Beskrivelse: Det engelske og kinesiske spesialvinkeltekstdatasettet inneholder bilder av tekst som vises i forskjellige vinkler og orienteringer på både engelsk og kinesisk. Den inkluderer tekst fra kilder som skilt, annonser og dokumenter som ikke presenteres i standard horisontale formater. Dette datasettet brukes til opplæring og evaluering av tekstgjenkjennings- og gjenkjenningsmodeller, spesielt de som er i stand til å håndtere tekst i utradisjonelle orienteringer og perspektiver.
Engelsk menydatasett
Bruk sak: OCR
Format: Bilde
Telle: 20k
merknad: Ja
Beskrivelse: Det engelske menydatasettet inkluderer bilder eller tekstprøver av restaurantmenyer skrevet på engelsk. Den har en rekke fonter, oppsett og formateringsstiler, med innhold som spenner fra tallerkennavn til beskrivelser og priser. Dette datasettet brukes ofte til oppgaver som optisk tegngjenkjenning (OCR), tekstutvinning og menydigitalisering i matrelaterte applikasjoner.
Engelske scener tekstdatasett
Bruk sak: OCR
Format: Bilde
Telle: 33k
merknad: Ja
Beskrivelse: Det engelske scenetekstdatasettet består av bilder som inneholder naturlige scener med innebygd engelsk tekst. Teksten vises i forskjellige former, for eksempel skilt, reklametavler og plakater, ofte i forskjellige fonter, størrelser og retninger. Dette datasettet brukes ofte til trening og testing av modeller i tekstgjenkjenning, gjenkjenning og sceneforståelsesoppgaver.
Håndskrevet tekstdatasett
Bruk sak: Dokument AI
Format: HEIC (bilder) og .mov (videoer)
Telle: 94053
merknad: Nei
Beskrivelse: Live-bilder med håndskrevet tekst for japansk, koreansk og russisk
Opptaksenhet: iPhone og iPad kamera
Opptakstilstand: - Aggressiv belysning/refleks - Kamerablits på - Farget lys - Lite lys, ingen kamerablits - Normal
Japansk og koreansk språkdatasett
Bruk sak: OCR
Format: Bilde
Telle: 40k
merknad: Ja
Beskrivelse: Japansk og koreansk språkdatasett inkluderer teksteksempler på både japansk og koreansk. Den har en rekke innhold som setninger, setninger og ord, som omfatter ulike kontekster og stiler. Dette datasettet brukes til oppgaver som naturlig språkbehandling (NLP), maskinoversettelse og tekstanalyse i flerspråklige applikasjoner.
Datasett med vanlig/kursiv tekst (Document AI)
Bruk sak: Dokument AI
Format: HEIC (bilder) og .mov (videoer)
Telle: 23930
merknad: Nei
Beskrivelse: Live-bilder med håndskrevet tekst for japansk, koreansk og russisk
Opptaksenhet: iPhone og iPad kamera
Opptakstilstand: - Aggressiv belysning/refleks - Kamerablits på - Farget lys - Lite lys, ingen kamerablits - Normal
Tekst + Audiovisuelt (Flerspråklig/OCR/NLP) – Bøker, Tidsskrifter, Lyd + Tekst
Bruk sak: Tekst + Audiovisuelt (Flerspråklig / OCR / NLP)
Format: videoer
Telle: 100 000+ forelesningsvideoer + PPT-videoer i langt format
merknad: Nei
Beskrivelse: Kinesiske bøker, engelske bøker, tidsskrifter, offentlig politikk, romaner, barn, kantonesisk lyd + tekst, forelesningsvideo + PPT, langformatvideo Halv milliard bøker, spørsmåls- og svarpar, artikler













