Håndskriftdatasett

22 beste åpen kildekode OCR- og håndskriftdatasett for å trene ML-modellene dine

Økningen i bruken av optisk tegngjenkjenning kan først og fremst tilskrives økningen i produksjonen av automatiske gjenkjenningssystemer. Som et resultat er den globale markedsverdien av OCR-teknologi, knyttet til $ 8.93 milliarder i 2021, er spådd å vokse med en CAGR på 15.4 % mellom 2022 og 2030.

Men hva er egentlig OCR-teknologi? Og hvorfor er det en game changer for bedrifter som utvikler effektive AI-modeller? La oss finne det ut.

Hva er OCR (Optical Character Recognition)?

OCR er teknologi som konverterer ulike typer dokumenter, som skannede papirdokumenter, PDF-er eller bilder av tekst, til redigerbare og søkbare data. Det fungerer av:

  • Analysere strukturen til tekst i et bilde
  • Å bryte ned teksten i linjer og tegn
  • Konvertering av disse visuelle tegnene til maskinlesbar tekst

Vanlige bruksområder inkluderer:

  • Konvertering av skannede dokumenter til redigerbare tekstfiler
  • Digitalisering av trykte bøker
  • Trekker ut tekst fra bilder
  • Konvertering av håndskrevne resepter til digital tekst
  • Nummerskiltgjenkjenning

Ocr treningsdata

Fordeler og utfordringer med datasett med åpen kildekode

Bedrifter må sette fordelene og utfordringene opp mot hverandre for å forstå om de må velge gratis data for ML-applikasjonene sine.

Fordeler

  • Dataene er lett tilgjengelige. På grunn av tilgjengeligheten av data reduseres kostnadene ved å utvikle applikasjonen betydelig.
  • Tiden og kreftene brukt på å samle inn data for applikasjonen reduseres betydelig ettersom datasettet er lett tilgjengelig.
  • Det er en overflod av fellesskapsfora eller hjelpegrupper som hjelper til med å lære, tilpasse og optimalisere datasettet.
  • En av de største fordelene med åpen kildekode-datasettet er at det ikke legger noen begrensninger på tilpasning.
  •   Åpen kildekode-data er tilgjengelig for en stor del av befolkningen, noe som gjør analyser og innovasjon mulig uten økonomiske barrierer.

Utfordringer

  • Dataspesifikke for prosjektet er vanskelige å få tak i. I tillegg er det en mulighet for manglende informasjon og feil bruk av tilgjengelige data.
  • Å skaffe proprietære data tar tid og krefter og er kostbart
  • Selv om det kan være lettere å skaffe data, kan kunnskap og analysekostnad oppveie den første fordelen.
  • Andre utviklere bruker også de samme dataene for å utvikle applikasjoner.
  • Disse datasettene er svært sårbare for sikkerhetsbrudd, personvern og samtykke.

22 beste håndskrift- og OCR-datasett for maskinlæring

Åpen kildekode ocr-datasett

Mange åpen kildekode-datasett er tilgjengelige for utvikling av tekstgjenkjenningsapplikasjoner. Noen av de 22 beste er

  1. NIST-database

    NIST eller National Institute of Science tilbyr en gratis samling av over 3600 håndskriftprøver med mer enn 810,000 XNUMX tegnbilder

  2. MNIST-database

    Avledet fra NSITs spesialdatabase 1 og 3, er MNIST-databasen en samlet samling av 60,000 10,000 håndskrevne numre for treningssettet og XNUMX XNUMX eksempler for testsettet. Denne åpen kildekodedatabasen hjelper med å trene modeller til å gjenkjenne mønstre mens de bruker mindre tid på forhåndsbehandling.

  3. Tekstgjenkjenning

    En åpen kildekode-database, tekstgjenkjenningsdatasettet inneholder rundt 500 innendørs og utendørs bilder av skilt, dørplater, varselplater og mer.

  4. Stanford OCR

    Publisert av Stanford, dette gratis-å-bruke datasettet er en håndskrevet ordsamling av MIT Spoken Language Systems Group.

  5. Street View-tekst

    Dette datasettet er samlet fra Google Street View-bilder, og har tekstgjenkjenningsbilder hovedsakelig av tavler og skilt på gatenivå.

  6. Dokumentdatabase

    Dokumentdatabasen er en samling av 941 håndskrevne dokumenter, inkludert tabeller, formler, tegninger, diagrammer, lister og mer, fra 189 forfattere.

  7. Matematiske uttrykk

    Mathematics Expressions er en database som inneholder 101 matematiske symboler og 10,000 XNUMX uttrykk.

  8. Street View-husnummer

    Denne Street View House Numbers er hentet fra Google Street View og er en database som inneholder 73257 sifre for gatehusnummer.

  9. Naturlig miljø OCR

    The Natural Environment OCR, er et datasett med nesten 660 bilder over hele verden og 5238 tekstkommentarer.

  10. Matematiske uttrykk

    Over 10,000 101 uttrykk med XNUMX+ matematiske symboler.

  11. Håndskrevne kinesiske tegn

    Et datasett med 909,818 10 håndskrevne kinesiske tegnbilder, tilsvarende rundt XNUMX nyhetsartikler.

  12. Arabisk trykt tekst

    Et leksikon med 113,284 10 ord med XNUMX arabiske fonter.

  13. Håndskrevet engelsk tekst

    Håndskrevet engelsk tekst på en tavle med over 1700 oppføringer.

  14. 3000 miljøer Bilder

    3000 bilder fra ulike miljøer, inkludert utendørs og innendørs scener under forskjellig belysning.

  15. Chars74K-data

    74,000 XNUMX bilder av engelske og Kannada-siffer.

  16. IAM (IAM-håndskrift)

    IAM-databasen har 13,353 657 håndskrevne tekstbilder av XNUMX forfattere fra Lancaster-Oslo/Bergen Corpus of British English.

  17. FUNSD (skjemaforståelse i støyende skannede dokumenter)

    FUNSD inkluderer 199 kommenterte, skannede skjemaer med variert og støyende utseende, utfordrende for formforståelse.

  18. Tekst OCR

    TextOCR benchmarker tekstgjenkjenning på vilkårlig formet scenetekst i naturlige bilder.

  19. Twitter 100k

    Twitter100k er et stort datasett for svakt overvåket gjenfinning på tvers av media.

  20. SSIG-SegPlate – License Plate Character Segmentation (LPCS)

    Dette datasettet evaluerer License Plate Character Segmentation (LPCS) med 101 kjøretøybilder på dagtid.

  21. 105,941 12 bilder Naturlige scener OCR-data for XNUMX språk

    Dataene inkluderer 12 språk (6 asiatiske, 6 europeiske) og ulike naturlige scener og vinkler. Den har grenselinjer på linjenivå og teksttranskripsjoner. Det er nyttig for flerspråklige OCR-oppgaver.

  22. Indisk skiltbildedatasett

    Datasettet har indiske trafikkskiltbilder for klassifisering og deteksjon, tatt under forskjellige værforhold dag, kveld og natt.

Dette var noen av de beste datasettene med åpen kildekode for opplæring av ML-modeller for tekstgjenkjenningsapplikasjoner. Det kan ta tid og krefter å velge den som samsvarer med bedriftens og applikasjonsbehovene dine. Du må imidlertid eksperimentere med disse datasettene før du bestemmer deg for det riktige.

[Les også: OCR-infografikk – definisjon, fordeler, utfordringer og brukstilfeller]

For å hjelpe deg med fremgang mot en pålitelig og effektiv tekstgjenkjenningsapplikasjon er Shaip – ​​den høyt rangerte leverandøren av teknologiløsninger. Vi utnytter vår tekniske erfaring til å lage tilpassbare, optimaliserte og effektive OCR-treningsdatasett for ulike kundeprosjekter. For å forstå våre evner fullt ut, ta kontakt med oss ​​i dag.

Sosial Share