Håndskriftdatasett

22 beste åpen kildekode OCR- og håndskriftdatasett for å trene ML-modellene dine

Næringslivet forandrer seg i et fenomenalt tempo, men denne digitale transformasjonen er ikke på langt nær så omfattende som vi ønsker at den skal være. Folk håndterer fortsatt fysiske dokumenter i sin daglige drift, fra store selskaper til småskalabedrifter. Selv om bruksfrekvensen har redusert betraktelig, har den ikke blitt helt avskaffet. I stedet for den tidkrevende prosessen med å skanne dokumenter for digital bruk, ved å bruke det nyeste OCR er tidseffektivt og effektivt.

Økningen i bruken av optisk tegngjenkjenning kan først og fremst tilskrives økningen i produksjonen av automatiske gjenkjenningssystemer. Som et resultat er den globale markedsverdien av OCR-teknologi, knyttet til $ 8.93 milliarder i 2021, er spådd å vokse med en CAGR på 15.4 % mellom 2022 og 2030.

Men hva er egentlig OCR-teknologi? Og hvorfor er det en game changer for bedrifter som utvikler effektive AI-modeller? La oss finne det ut.

Hva er OCR?

Alternativt referert til som tekstgjenkjenning, OCR eller optisk tegngjenkjenning er et program som trekker ut trykte eller skrevne data fra skannede dokumenter, kun bilde-PDF-er og håndskrevne notater til et maskinlesbart format. Programvaren tar ut hver bokstav fra bildet og kombinerer dem til ord og setninger, og gjør det enkelt å få tilgang til og redigere dokumentene digitalt.

Hva er åpen kildekode-datasett?

Det er flere steder hvor OCR-teknologi har et stort potensiale for å bli utnyttet. Noen steder inkluderer flyplassen, e-bokpublisering, annonser, banker og forsyningskjedesystemer. Men for at applikasjonene skal tjene sitt formål, må de trenes på prosjektspesifikke Datasett for optisk tegngjenkjenning.

Effektiviteten til applikasjonen avhenger i stor grad av datasettets kvalitet og opplæringsmetodikken som er involvert. Men finne kvalitet digital og håndskriftdatasett er vanskelig for applikasjonen. Så mange selskaper bruker åpen kildekode eller gratis å bruke datasett i stedet for proprietære.

Fordeler og utfordringer med datasett med åpen kildekode

Bedrifter må sette fordelene og utfordringene opp mot hverandre for å forstå om de må velge gratis data for ML-applikasjonene sine.

Fordeler

  • Dataene er lett tilgjengelige. På grunn av tilgjengeligheten av data reduseres kostnadene ved å utvikle applikasjonen betydelig.
  • Tiden og kreftene brukt på å samle inn data for applikasjonen reduseres betydelig ettersom datasettet er lett tilgjengelig.
  • Det er en overflod av fellesskapsfora eller hjelpegrupper som hjelper til med å lære, tilpasse og optimalisere datasettet.
  • En av de største fordelene med åpen kildekode-datasettet er at det ikke legger noen begrensninger på tilpasning.
  •   Åpen kildekode-data er tilgjengelig for en stor del av befolkningen, noe som gjør analyser og innovasjon mulig uten økonomiske barrierer.

Utfordringer

  • Dataspesifikke for prosjektet er vanskelige å få tak i. I tillegg er det en mulighet for manglende informasjon og feil bruk av tilgjengelige data.
  • Å skaffe proprietære data tar tid og krefter og er kostbart
  • Selv om det kan være lettere å skaffe data, kan kunnskap og analysekostnad oppveie den første fordelen.
  • Andre utviklere bruker også de samme dataene for å utvikle applikasjoner.
  • Disse datasettene er svært sårbare for sikkerhetsbrudd, personvern og samtykke.

22 beste håndskrift- og OCR-datasett for maskinlæring

Åpen kildekode ocr-datasett

Mange åpen kildekode-datasett er tilgjengelige for utvikling av tekstgjenkjenningsapplikasjoner. Noen av de 22 beste er

  1. NIST-database (Link)

    NIST eller National Institute of Science tilbyr en gratis samling av over 3600 håndskriftprøver med mer enn 810,000 XNUMX tegnbilder

  2. MNIST-database (Link)

    Avledet fra NSITs spesialdatabase 1 og 3, er MNIST-databasen en samlet samling av 60,000 10,000 håndskrevne numre for treningssettet og XNUMX XNUMX eksempler for testsettet. Denne åpen kildekodedatabasen hjelper med å trene modeller til å gjenkjenne mønstre mens de bruker mindre tid på forhåndsbehandling.

  3. Tekstgjenkjenning (Link)

    En åpen kildekode-database, tekstgjenkjenningsdatasettet inneholder rundt 500 innendørs og utendørs bilder av skilt, dørplater, varselplater og mer.

  4. Stanford OCR (Link)

    Publisert av Stanford, dette gratis-å-bruke datasettet er en håndskrevet ordsamling av MIT Spoken Language Systems Group.

  5. Street View-tekst (Link)

    Dette datasettet er samlet fra Google Street View-bilder, og har tekstgjenkjenningsbilder hovedsakelig av tavler og skilt på gatenivå.

  6. Dokumentdatabase (Link)

    Dokumentdatabasen er en samling av 941 håndskrevne dokumenter, inkludert tabeller, formler, tegninger, diagrammer, lister og mer, fra 189 forfattere.

  7. Matematiske uttrykk (Link)

    Mathematics Expressions er en database som inneholder 101 matematiske symboler og 10,000 XNUMX uttrykk.

  8. Street View-husnummer (Link)

    Denne Street View House Numbers er hentet fra Google Street View og er en database som inneholder 73257 sifre for gatehusnummer.

  9. Naturlig miljø OCR (Link)

    The Natural Environment OCR, er et datasett med nesten 660 bilder over hele verden og 5238 tekstkommentarer.

  10. Matematiske uttrykk (Link)

    Over 10,000 101 uttrykk med XNUMX+ matematiske symboler.

  11. Håndskrevne kinesiske tegn (Link)

    Et datasett med 909,818 10 håndskrevne kinesiske tegnbilder, tilsvarende rundt XNUMX nyhetsartikler.

  12. Arabisk trykt tekst (Link)

    Et leksikon med 113,284 10 ord med XNUMX arabiske fonter.

  13. Håndskrevet engelsk tekst (Link)

    Håndskrevet engelsk tekst på en tavle med over 1700 oppføringer.

  14. 3000 miljøer Bilder (Link)

    3000 bilder fra ulike miljøer, inkludert utendørs og innendørs scener under forskjellig belysning.

  15. Chars74K-data (Link)

    74,000 XNUMX bilder av engelske og Kannada-siffer.

  16. IAM (IAM-håndskrift) (Link)

    IAM-databasen har 13,353 657 håndskrevne tekstbilder av XNUMX forfattere fra Lancaster-Oslo/Bergen Corpus of British English.

  17. FUNSD (skjemaforståelse i støyende skannede dokumenter) (Link)

    FUNSD inkluderer 199 kommenterte, skannede skjemaer med variert og støyende utseende, utfordrende for formforståelse.

  18. TekstOCR (Link)

    TextOCR benchmarker tekstgjenkjenning på vilkårlig formet scenetekst i naturlige bilder.

  19. Twitter100k (Link)

    Twitter100k er et stort datasett for svakt overvåket gjenfinning på tvers av media.

  20. SSIG-SegPlate – License Plate Character Segmentation (LPCS) (Link)

    Dette datasettet evaluerer License Plate Character Segmentation (LPCS) med 101 kjøretøybilder på dagtid.

  21. 105,941 12 bilder Naturlige scener OCR-data for XNUMX språk (Link)

    Dataene inkluderer 12 språk (6 asiatiske, 6 europeiske) og ulike naturlige scener og vinkler. Den har grenselinjer på linjenivå og teksttranskripsjoner. Det er nyttig for flerspråklige OCR-oppgaver.

  22. Indisk skiltbildedatasett (Link)

    Datasettet har indiske trafikkskiltbilder for klassifisering og deteksjon, tatt under forskjellige værforhold dag, kveld og natt.

Dette var noen av de beste datasettene med åpen kildekode for opplæring av ML-modeller for tekstgjenkjenningsapplikasjoner. Det kan ta tid og krefter å velge den som samsvarer med bedriftens og applikasjonsbehovene dine. Du må imidlertid eksperimentere med disse datasettene før du bestemmer deg for det riktige.

For å hjelpe deg med fremgang mot en pålitelig og effektiv tekstgjenkjenningsapplikasjon er Shaip – ​​den høyt rangerte leverandøren av teknologiløsninger. Vi utnytter vår tekniske erfaring til å lage tilpassbare, optimaliserte og effektive OCR-treningsdatasett til ulike kundeprosjekter. For å forstå våre evner fullt ut, ta kontakt med oss ​​i dag.

Sosial Share