Åpne datasett
Oppdag datasett med åpen kildekode som får deg til å trene ML-modeller
Datasett med åpen kildekode for å komme i gang med AI/ML-modeller
Utdataene fra AI- og ML-modellene dine er bare like gode som dataene du bruker for å trene dem – så presisjonen du bruker på dataaggregering og tagging og identifisering av disse dataene er viktig!
Så hvis du ønsker å starte et nytt AI/ML-initiativ og nå innser du raskt at det å finne treningsdata av høy kvalitet vil være en av de mer utfordrende aspektene ved prosjektet ditt, siden høykvalitets datasett er drivstoffet som holder AI/ ML-motor i gang. Vi har samlet en liste over åpne datasett som er gratis å bruke og trene dine AI/ML-modeller for fremtiden.
Spesialisering | Data-type | Datasettnavn | Industri / Avd. | Merknad/brukstilfelle | Beskrivelse | link |
---|---|---|---|---|---|---|
NLP | tekst | Amazon Anmeldelser | E-handel | Sentiment Analyse | Et sett med 35 millioner anmeldelser og vurderinger fra de siste 18 årene i ren tekst med bruker- og produktdetaljer. | link |
NLP | tekst | Wikipedia lenker data | general | Mer enn 4 Mn. artikler som inneholder 1.9 milliarder kroner. ord som består av ord og uttrykk samt avsnitt. | link | |
NLP | tekst | Standford Sentiment Treebank | Entertainment | Sentiment Analyse | Sentimentannoteringsdatasett for over 10,000 XNUMX anmeldelser fra Rotten Tomatoes i HTML-filformat | link |
NLP | tekst | Twitter US Airline Sentiment | Flyselskap | Sentiment Analyse | Tweets fra 2015 på US Airlines delte seg i positive, negative og nøytrale toner | link |
CV | Bilde | Merkede Faces In The Wild | general | ansiktsgjenkjenning | Datasett som inneholder over 13,000 XNUMX beskårne ansikter med to forskjellige bilder for trening for ansiktsgjenkjenning. | link |
CV | Video, bilde | UMDFaces-datasett | general | ansiktsgjenkjenning | Kommentert datasett som inneholder over 367,000 8,000 ansikter fra over XNUMX XNUMX emner som inkluderer stillbilder og videobilder. | link |
CV | Bilde | Imagenet | general | Datasett med over 14 Mn. bilder i ulike filformater, organisert i henhold til WordNet-hierarkiet. | link | |
CV | Bilde | Googles åpne bilder | general | 9 Mn. URL-er for å kategorisere offentlige bilder fra over 6,000 kategorier. | link | |
NLP | tekst | MIMIC Critical Care Database | Helsevesen | Computational Physiology Datasett med avidentifiserte data fra 40,000 XNUMX kritiske pasienter. Datasettet inneholder informasjon som demografi, vitale funksjoner, medisiner osv. | link | |
CV | Bilde | US National Travel and Tourism Office | Turisme | Gir brede fotografier fra reiselivsnæringen med pålitelige databaser, som dekker emner som inngående og utgående reiser og internasjonal turistinformasjon. | link | |
NLP | tekst | Institutt for transport | Turisme | Turismedatasett som inkluderer nasjonalparker, sjåførregistre, broer og jernbaneinformasjon etc. | link | |
NLP | lyd | Flickr Audio Caption Corpus | general | Over 40 8,000 taletekster fra XNUMX fotografier designet for uovervåkede talemønstre | link | |
NLP | lyd | Datasett for talekommandoer | general | Talegjenkjenning, lydkommentarer | 1 sekund lange ytringer fra tusenvis av individer, for å bygge grunnleggende stemmegrensesnitt. | link |
NLP | lyd | Datasett for miljølyd | general | Miljølyddatasett som inneholder lyd av hendelsestabeller og akustiske scenetabeller. | link | |
NLP | tekst | COVID-19 Åpen forskningsdatasett | Helsevesen | Medisinsk AI | Et forskningsdatasett som består av 45,000 19 vitenskapelige artikler om COVID-XNUMX og virusfamilien av coronavirus. | link |
CV | Bilde | Waymo Åpne datasett | Biler | De mest varierte datasettene for autonom kjøring utgitt av Waymo | link | |
CV | Bilde | Labelme | Offentlige myndigheter | Stort sett med kommenterte bilder tilgjengelig gjennom Labelme Matlab | link | |
CV | Bilde | COIL100 | general | Over 100 varierte objekter fotografert fra flere vinkler (dvs. 360 grader) | link | |
CV | Bilde | Stanford Dogs Datasett | general | Over 20,500 120+ bilder kategorisert i bildesett med XNUMX forskjellige hunderaser | link | |
CV | Bilde | Innendørs scenegjenkjenning | general | Scenegjenkjenning | Et spesifikt datasett bestående av 15620 bilder fra 67 innendørskategorier for å bygge scenegjenkjenningsmodeller | link |
CV | Bilde | VisualQA | general | Et datasett som inkluderer åpne spørsmål knyttet til 265,016 XNUMX bilder som krever forståelse av syn og språkforståelse for å svare. | link | |
NLP | tekst | Datasett for multidomene sentimentanalyse | E-handel | Sentiment Analyse | Datasett som inneholder produktanmeldelser fra Amazon | link |
NLP | tekst | IMDB-anmeldelser | Entertainment | Sentiment Analyse | Datasett som inneholder 25000 filmanmeldelser for sentimentanalyse | link |
NLP | tekst | Bloggerkorpus | general | Keyprase-analyse | Datasett som inneholder 681,288 200 blogginnlegg fra blogger.com bestående av minimum XNUMX forekomster av mye brukte engelske ord. | link |
NLP | tekst | Jeopardy | general | Chatbot-trening | Datasett med mer enn 200,000 XNUMX spørsmål som kan brukes til å trene maskinlæringsmodeller til intelligent autosvar | link |
NLP | tekst | SMS Spam Collection på engelsk | Telecom | Spamgjenkjenning | Et datasett for spammeldinger som består av 5,574 XNUMX engelske SMS-er | link |
NLP | tekst | Yelp-anmeldelser | general | Sentiment Analyse | Et datasett med over 5 minutter gjennomgang publisert av Yelp | link |
NLP | tekst | UCIs spambase | Enterprise | Spamgjenkjenning | Et stort datasett med spam-e-poster, nyttig for spamfiltrering. | link |
CV | Video, bilde | Berkeley DeepDrive BDD100k | Biler | Autonome kjøretøyer | Et av de største datasettet for selvkjørende kunstig intelligens som inneholder 1,100 timers kjøreopplevelser i over 100,000 videoer fra forskjellige tider på dagen fra New York og San Francisco-området. | link |
CV | Video | Comma.ai | Biler | Autonome kjøretøyer | Et datasett for 7 timers motorveiskjøring som består av informasjon om bilens hastighet, akselerasjon, styrevinkel og GPS-koordinater | link |
CV | Video, bilde | Bybildedatasett | Biler | Semantisk etikett for autonome kjøretøy | Et datasett med merknader på 5,000 20,000 pikselnivå pluss et større sett med 50 XNUMX svakt kommenterte rammer i stereovideosekvenser, tatt opp fra XNUMX forskjellige byer | link |
CV | Bilde | KUL Belgia trafikkskiltdatasett | Biler | Autonome kjøretøyer | Over 10000+ trafikkskiltkommentarer fra Flandern-regionen basert på fysisk distinkte trafikkskilt fra hele Belgia. | link |
CV | Bilde | LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasett | Biler | Autonome kjøretøyer | Et rikt datasett som inneholder trafikkskilt, kjøretøydeteksjon, trafikklys og banemønstre. | link |
CV | Bilde | CIFAR-10 | general | Gjenkjenning av objekter | Et datasett som består av 50,000 10,000 bilder og 60,000 32 testbilder (dvs. 32 10 XNUMX×XNUMX fargebilder i XNUMX klasser) for objektgjenkjenning. | link |
CV | Bilde | Mote MNIST | Mote | Et bildedatasett som består av 60,000 10,000 eksempler og et testsett med 28 28 eksempler i 10×XNUMX gråtonebilder, tilknyttet en etikett fra XNUMX klasser. | link | |
CV | Bilde | IMDB-Wiki-datasett | Entertainment | ansiktsgjenkjenning | Et stort datasett med ansiktsbilder med etiketter som kjønn og alder. Av de totalt 523,051 460,723 ansiktsbildene er 20,284 62,328 bilder hentet fra XNUMX XNUMX kjendiser fra IMDB og XNUMX XNUMX fra Wikipedia. | link |
CV | Video | Kinetikk-700 | general | For hver handlingsklasse består høykvalitetsdatasettet av 650,000 700 videoklipp og omfatter 600 menneskelige handlingsklasser med minst 10 videoklipp. Her varer hvert klipp i XNUMX sekunder eller så. | link | |
CV | Bilde | MS Coco | general | Objektdeteksjon, Segmentering | Datasettet inneholder 328 2.5 bilder og har totalt 91 Mn-forekomster og XNUMX objektbilder for å trene opp storskala objektdeteksjon, segmentering og datateksting relaterte ML-modeller. | link |
CV | Bilde | MPII Human Pose Datasett | general | Rundt 25 40 fotografier som inneholder over 410 XNUMX individer med annoterte kroppsledd er inkludert i datasettet, som brukes til å artikulere menneskelig positur. Totalt sett dekker datasettet XNUMX menneskelige aktiviteter, og hvert bilde er utstyrt med en aktivitetsetikett. | link | |
CV | Bilde | Åpne bilder | general | Merknader for objektplassering | Bildedatasett med rundt 9 Mn bilder annotert med bildenivåetiketter, objektgrensebokser, objektsegmentering etc. Datasettet består også av 16 Mn. avgrensningsbokser for 600 objektklasser på 1.9 Mn bilder. | link |
CV | Video, bilde | Argo, av Argo, USA | Biler | Bounding Box, Optical Flow, Behavioral Label, Semantic Label, Lane Marking | Et selvkjørende datasett som består av HD-kart med geometriske og semantiske metadata, dvs. kjørefelts senterlinjer, kjørefeltretning og kjørbart område. Datasettet brukes til å trene ML-modeller, for å lage mer nøyaktige persepsjonsalgoritmer, som vil hjelpe selvkjørende kjøretøy med å navigere trygt. | link |
CV | Video | Bosch Small Traffic Lights, av Bosch North America Research | Biler | Avgrensningsboks | Et datasett som består av 13427 kamerabilder med 1280*720 oppløsning for å bygge et synsbasert trafikklysdeteksjonssystem. Datasettet har mer enn 24000 kommenterte trafikklys. | link |
CV | Video | Brain4Cars, av Cornell Univ., USA | Biler | Atferdsmerke | Et datasett som består av en rekke kabinsensorer (kameraer, taktile sensorer, smartenheter, etc.) for å trekke ut nyttig statistikk om førerens våkenhet. Algoritmene våre kan oppdage sjåfører som er døsige eller distraherte og øke nødvendige alarmer for å forbedre beskyttelsen. | link |
CV | Bilde | CULane, ved Chinese Univ. fra Hong Kong, Beijing, Kina | Biler | Kjørefeltmerking | Et Computer Vision-datasett om kjørefeltdeteksjon, bestående av 55 timer med videoer hvorav 133,235 88880 (9675 treningssett, 34680 valideringssett og XNUMX testsett) rammer ble trukket ut. Det samles inn av kameraer montert på seks forskjellige kjøretøyer som kjøres av forskjellige sjåfører i Beijing. | link |
CV | Video | DAVIS, av Univ. av Zürich, ETH ¨ Zürich, Tyskland, Sveits | Biler | Et ende-til-ende kjøretøy kjøreopplæringsdatasett som bruker et DAVIS event+frame-kamera. Bildata som styring, gass, GPS osv. brukes til å evaluere sammenslåingen av ramme- og hendelsesdata for bilapper. | link | |
CV | Video | DBNet, av Shanghai Jiao Tong Univ., Xiamen Univ., Kina | Biler | Point Cloud, LiDAR | En virkelig 1000 km kjøredata, som inkluderer justert video, punktsky, GPS og sjåføratferd for dyptgående forskning på kjøreatferd. | link |
CV | Video | Dr(eye)ve, av Univ. av Modena og Reggio Emilia, Modena, Italia | Biler | Atferdsmerke | Datasett som inneholder 74 videosekvenser på 5 minutter hver, som ble kommentert i mer enn 500,000 XNUMX bilder. Datasettet består av georefererte steder, kjørehastighet, kurs, og merker også sjåførers blikkfiksering og deres tidsmessige integrering, og gir oppgavespesifikke kart. | link |
CV | Video | ETH Pedestrian (2009), av ETH Zürich, Zürich, Sveits | general | Avgrensningsboks | Et datasett med 74 videosekvenser på 5 minutter hver, kommentert i mer enn 500,000 XNUMX bilder. Datasettet gir geo-refererte posisjoner, kjørehastighet, retning, og merker også blikkfikseringer for sjåfører og deres tidsmessige integrering, inkludert oppgavespesifikke kart. | link |
CV | Video | Ford (2009), av Univ. fra Michigan, Michigan, USA | Biler | Bounding Box, , LiDAR | Et datasett satt sammen av et automatisert landkjøretøy bevæpnet med en Velodyne 3D-lidar-skanner, to push-kvast fremoverskuende Rieg-lidarer, en teknisk og forbruker treghetsmålingsenhet (IMU) og et Point Grey Ladybug3 omnidireksjonelt kamerasystem. | link |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Tyskland | general | Et datasett med flere millioner bilder fra fangede videoscener som inkluderer et bredt spekter av forskjellige værforhold, flere lag med bevegelse og dybde; situasjoner i by og bygd mv. | link | |
CV | Video | JAAD, ved York University, Ukraina, Canada | Biler | Bounding Box, Behavioral Label | "JAAD er et datasett for å studere felles oppmerksomhet i sammenheng med autonom kjøring. Fokuset er på fotgjenger- og føreradferd ved kryssingspunktet og faktorer som påvirker dem. For dette formål gir JAAD-datasettet en rikt kommentert samling av 346 korte videoer klipp (5–10 sek lange) hentet fra over 240 timers kjøreopptak fra flere steder i Nord-Amerika og Øst-Europa. Avgrensningsbokser med okklusjonstagger brukes for alle fotgjengere, noe som gjør dette datasettet egnet for fotgjengerdeteksjon. Atferdsanmerkninger spesifiserer atferd for fotgjengere som samhandler med eller krever oppmerksomhet fra sjåføren. For hver video er det flere tagger (vær, steder osv.) og tidsstemplede adferdsetiketter (f.eks. stoppet, går, ser osv.). I tillegg er en liste over demografiske attributter gitt for hver fotgjenger (f.eks. alder, kjønn, bevegelsesretning osv.) samt en liste over synlige trafikksceneelementer (f.eks. stoppskilt, trafikksignal osv.) i hver ramme." | link |
CV | Bilde | LISA Trafikkskilt, av Univ. of California, San Diego, USA | Biler | Avgrensningsboks | Settet med datasett som inneholder videoer og kommenterte rammer som inneholder amerikanske trafikkskilt. Den slippes i to etapper, en med kun bildene og en med både bilder og videoer. | link |
CV | Bilde | Mapillary Vistas, av Mapillary AB, Global | Biler | Semantisk etikett | Et fotodatasett på gatenivå for å tolke gatescener rundt om i verden med pikselnøyaktige og instansspesifikke menneskelige merknader. | link |
CV | Video, bilde | Semantisk KITTI, ved Universitetet i Bonn, Karlsruhe, Tyskland | Biler | Begrensningsboks, semantisk etikett, kjørefeltmerking | Et datasett som inkluderer en semantisk merknad for alle Odometry Benchmark-sekvenser. Datasettet annoterer ulike typer bevegelig og ikke-bevegelig trafikk: inkludert biler, sykler, sykler, fotgjengere og syklister, slik at gjenstander i åstedet kan studeres. | link |
CV | Video | Stanford Track, av Stanford Univ., USA | Biler | Objektdeteksjon / klassifisering LiDAR, GPS, koder | Et datasett som inkluderer 14,000 64 merkede objektspor som observert av en Velodyne HDL-2E S3 LIDAR i naturlige gatescener, som kan brukes til å trene maskinlæringsmodeller for XNUMXD-objektgjenkjenning. | link |
CV | Video, bilde | The Boxy Dataset, av Bosch, USA | Biler | Begrensningsboks / kjøretøydeteksjon | Et datasett for kjøretøydeteksjon som inneholder 2 millioner merkede kjøretøy for opplæring og analyse av gjenkjenningsstrategier for selvkjørende biler på motorveier. | link |
CV | Video | TME Motorway, ved Tsjekkisk tekniske universitet, Nord-Italia | Biler | Avgrensningsboks | Et datasett med 28 klipp i totalt 27 minutter delt inn i 30,000 XNUMX+ merknaderrammer for kjøretøy. Merknader ble produsert semi-automatisk ved hjelp av dataene fra laserskanneren. Denne datainnsamlingen involverer variable trafikkscenarier, antall kjørefelt, veikurvatur og belysning, og dekker mye av betingelsene for den fullstendige anskaffelsen. | link |
CV | Video | Lamaer uten tilsyn, av Bosch, USA | Biler | Kjørefeltmerking, LiDAR | Unsupervised Llamas-datasettet ble kommentert ved å generere automatiske kjørekart med høy oppløsning, inkludert Lidar-baserte kjørefeltmarkører. Det autonome kjøretøyet kan justeres mot disse kartene, og kjørefeltmarkeringene projiseres inn i kamerarammen. 3D-projeksjonen er optimalisert ved å minimere avviket mellom allerede observerte og forutsagte bildemarkører. | link |
NLP | lyd | Facebook AI Multilingual LibriSpeech (MLS) | general | Lydkommentar / talegjenkjenning | Facebook AI Multilingual LibriSpeech (MLS), er et storstilt datasett med åpen kildekode designet for å hjelpe til med å fremme forskning innen automatisk talegjenkjenning (ASR). MLS gir mer enn 50,000 8 timer med lyd på XNUMX språk: engelsk, tysk, nederlandsk, fransk, spansk, italiensk, portugisisk og polsk. | link |