Arabisk & thai & vietnamesisk & hindi & engelsk & kinesisk språkdatasett

Arabisk & thai & vietnamesisk & hindi & engelsk & kinesisk språkdatasett

Bruk sak: OCR

Format: Bilde

Telle: 150k

merknad: Ja

X

Beskrivelse: Arabisk & thai & vietnamesisk & hindi & engelsk & kinesisk språkdatasett

Arabisk tekstdatasett

Arabisk tekstdatasett

Bruk sak: OCR

Format: Bilde

Telle: 1k

merknad: Ja

X

Beskrivelse: Det arabiske tekstdatasettet inneholder en samling teksteksempler skrevet på arabisk. Det inkluderer ulike former for innhold, som nyhetsartikler, innlegg på sosiale medier, litteratur og dialog, som spenner over ulike emner og skrivestiler. Dette datasettet brukes til oppgaver som naturlig språkbehandling (NLP), tekstklassifisering, sentimentanalyse og maskinoversettelse i arabiske språkapplikasjoner.

Kinesisk og engelsk og tibetansk og uigurisk språkdatasett

Kinesisk og engelsk og tibetansk og uigurisk språkdatasett

Bruk sak: OCR

Format: Bilde

Telle: 38k

merknad: Ja

X

Beskrivelse: Kinesisk og engelsk og tibetansk og uigurisk språkdatasett

Kinesisk og engelsk menydatasett

Kinesisk og engelsk menydatasett

Bruk sak: OCR

Format: Bilde

Telle: 60k

merknad: Ja

X

Beskrivelse: Kinesisk og engelsk menydatasett inneholder bilder eller teksteksempler av restaurantmenyer som inneholder både kinesisk og engelsk. Den inkluderer forskjellige fonter, oppsett og menystrukturer, og presenterer tospråklige rettnavn, beskrivelser og priser. Dette datasettet er nyttig for oppgaver som optisk tegngjenkjenning (OCR), maskinoversettelse og menydigitalisering i flerspråklige innstillinger.

Kinesisk håndskrevet komposisjonsdatasett

Kinesisk håndskrevet komposisjonsdatasett

Bruk sak: OCR

Format: Bilde

Telle: 3k

merknad: Ja

X

Beskrivelse: Det kinesiske håndskrevne komposisjonsdatasettet inneholder eksempler på håndskrevet kinesisk tekst, inkludert komposisjoner, essays og annen lang tekst. Den har forskjellige håndskriftstiler og kompleksitetsnivåer, og brukes til oppgaver som håndskriftgjenkjenning, tekstanalyse og maskinlæringsmodellopplæring.

Kinesisk WIFI-forespørselsdatasett

Kinesisk WIFI-forespørselsdatasett

Bruk sak: OCR

Format: Bilde

Telle: 1k

merknad: Ja

X

Beskrivelse: Det kinesiske WIFI-forespørselsdatasettet består av teksteksempler funnet i WIFI-meldinger og påloggingsskjermer skrevet på kinesisk. Den inkluderer vanligvis ulike meldinger, instruksjoner og feilmeldinger knyttet til tilkobling til eller administrasjon av WIFI-nettverk. Dette datasettet brukes til oppgaver som tekstgjenkjenning, naturlig språkbehandling og forbedring av brukergrensesnitt for nettverkstilkobling.

Engelsk og kinesisk håndskriftdatasett

Engelsk og kinesisk håndskriftdatasett

Bruk sak: OCR

Format: Bilde

Telle: 12k

merknad: Ja

X

Beskrivelse: Datasettet for engelsk og kinesisk håndskrift inneholder håndskrevne eksempler på både engelsk og kinesisk, og viser ulike skrivestiler og karakterkompleksiteter. Den brukes vanligvis til å trene og evaluere modeller for håndskriftgjenkjenning, støtte flerspråklig tekstanalyse og annen relatert forskning. Datasettet inkluderer et mangfoldig utvalg av tegn, sifre, ord og setninger på begge språk.

Engelsk og kinesisk Shopsign-datasett

Engelsk og kinesisk Shopsign-datasett

Bruk sak: OCR

Format: Bilde

Telle: 30k

merknad: Ja

X

Beskrivelse: Det engelske og kinesiske Shopsign-datasettet inkluderer bilder av butikkskilt med både engelsk og kinesisk tekst. Den fanger opp forskjellige skiltelementer som butikknavn, annonser, kampanjer og veibeskrivelser, vist i forskjellige fonter, stiler og formater. Dette datasettet brukes til oppgaver som tekstgjenkjenning og gjenkjenning, flerspråklig sceneforståelse og forbedring av datasynsmodeller for tolkning av tospråklig skilting.

Engelsk og kinesisk spesialvinkeltekstdatasett

Engelsk og kinesisk spesialvinkeltekstdatasett

Bruk sak: OCR

Format: Bilde

Telle: 50k

merknad: Ja

X

Beskrivelse: Det engelske og kinesiske spesialvinkeltekstdatasettet inneholder bilder av tekst som vises i forskjellige vinkler og orienteringer på både engelsk og kinesisk. Den inkluderer tekst fra kilder som skilt, annonser og dokumenter som ikke presenteres i standard horisontale formater. Dette datasettet brukes til opplæring og evaluering av tekstgjenkjennings- og gjenkjenningsmodeller, spesielt de som er i stand til å håndtere tekst i utradisjonelle orienteringer og perspektiver.

Engelsk menydatasett

Engelsk menydatasett

Bruk sak: OCR

Format: Bilde

Telle: 20k

merknad: Ja

X

Beskrivelse: Det engelske menydatasettet inkluderer bilder eller tekstprøver av restaurantmenyer skrevet på engelsk. Den har en rekke fonter, oppsett og formateringsstiler, med innhold som spenner fra tallerkennavn til beskrivelser og priser. Dette datasettet brukes ofte til oppgaver som optisk tegngjenkjenning (OCR), tekstutvinning og menydigitalisering i matrelaterte applikasjoner.

Engelske scener tekstdatasett

Engelske scener tekstdatasett

Bruk sak: OCR

Format: Bilde

Telle: 33k

merknad: Ja

X

Beskrivelse: Det engelske scenetekstdatasettet består av bilder som inneholder naturlige scener med innebygd engelsk tekst. Teksten vises i forskjellige former, for eksempel skilt, reklametavler og plakater, ofte i forskjellige fonter, størrelser og retninger. Dette datasettet brukes ofte til trening og testing av modeller i tekstgjenkjenning, gjenkjenning og sceneforståelsesoppgaver.

Håndskrevet tekstdatasett

Håndskrevet tekstdatasett

Bruk sak: Dokument AI

Format: HEIC (bilder) og .mov (videoer)

Telle: 94053

merknad: Nei

X

Beskrivelse: Live-bilder med håndskrevet tekst for japansk, koreansk og russisk

Opptaksenhet: iPhone og iPad kamera

Opptakstilstand: - Aggressiv belysning/refleks - Kamerablits på - Farget lys - Lite lys, ingen kamerablits - Normal

Japansk og koreansk språkdatasett

Japansk og koreansk språkdatasett

Bruk sak: OCR

Format: Bilde

Telle: 40k

merknad: Ja

X

Beskrivelse: Japansk og koreansk språkdatasett inkluderer teksteksempler på både japansk og koreansk. Den har en rekke innhold som setninger, setninger og ord, som omfatter ulike kontekster og stiler. Dette datasettet brukes til oppgaver som naturlig språkbehandling (NLP), maskinoversettelse og tekstanalyse i flerspråklige applikasjoner.

Datasett med vanlig/kursiv tekst (Document AI)

Datasett med vanlig/kursiv tekst (Document AI)

Bruk sak: Dokument AI

Format: HEIC (bilder) og .mov (videoer)

Telle: 23930

merknad: Nei

X

Beskrivelse: Live-bilder med håndskrevet tekst for japansk, koreansk og russisk

Opptaksenhet: iPhone og iPad kamera

Opptakstilstand: - Aggressiv belysning/refleks - Kamerablits på - Farget lys - Lite lys, ingen kamerablits - Normal

Tekst + Audiovisuelt (Flerspråklig/OCR/NLP) – Bøker, Tidsskrifter, Lyd + Tekst

Tekst + Audiovisuelt (Flerspråklig/OCR/NLP) – Bøker, Tidsskrifter, Lyd + Tekst

Bruk sak: Tekst + Audiovisuelt (Flerspråklig / OCR / NLP)

Format: videoer

Telle: 100 000+ forelesningsvideoer + PPT-videoer i langt format

merknad: Nei

X

Beskrivelse: Kinesiske bøker, engelske bøker, tidsskrifter, offentlig politikk, romaner, barn, kantonesisk lyd + tekst, forelesningsvideo + PPT, langformatvideo Halv milliard bøker, spørsmåls- og svarpar, artikler