Åpne datasett

Oppdag datasett med åpen kildekode som får deg til å trene ML-modeller

Åpne datasett

Datasett med åpen kildekode for å komme i gang med AI/ML-modeller

Utdataene fra AI- og ML-modellene dine er bare like gode som dataene du bruker for å trene dem – så presisjonen du bruker på dataaggregering og tagging og identifisering av disse dataene er viktig!

Så hvis du ønsker å starte et nytt AI/ML-initiativ og nå innser du raskt at det å finne treningsdata av høy kvalitet vil være en av de mer utfordrende aspektene ved prosjektet ditt, siden høykvalitets datasett er drivstoffet som holder AI/ ML-motor i gang. Vi har samlet en liste over åpne datasett som er gratis å bruke og trene dine AI/ML-modeller for fremtiden.

SpesialiseringData-typeDatasettnavnIndustri / Avd.Merknad/brukstilfelleBeskrivelselink
NLPtekstAmazon AnmeldelserE-handelSentiment AnalyseEt sett med 35 millioner anmeldelser og vurderinger fra de siste 18 årene i ren tekst med bruker- og produktdetaljer.link
NLPtekstWikipedia lenker datageneralMer enn 4 Mn. artikler som inneholder 1.9 milliarder kroner. ord som består av ord og uttrykk samt avsnitt.link
NLPtekstStandford Sentiment TreebankEntertainmentSentiment AnalyseSentimentannoteringsdatasett for over 10,000 XNUMX anmeldelser fra Rotten Tomatoes i HTML-filformatlink
NLPtekstTwitter US Airline SentimentFlyselskapSentiment AnalyseTweets fra 2015 på US Airlines delte seg i positive, negative og nøytrale tonerlink
CVBilde Merkede Faces In The WildgeneralansiktsgjenkjenningDatasett som inneholder over 13,000 XNUMX beskårne ansikter med to forskjellige bilder for trening for ansiktsgjenkjenning.link
CVVideo, bildeUMDFaces-datasettgeneralansiktsgjenkjenningKommentert datasett som inneholder over 367,000 8,000 ansikter fra over XNUMX XNUMX emner som inkluderer stillbilder og videobilder.link
CVBilde ImagenetgeneralDatasett med over 14 Mn. bilder i ulike filformater, organisert i henhold til WordNet-hierarkiet.link
CVBilde Googles åpne bildergeneral9 Mn. URL-er for å kategorisere offentlige bilder fra over 6,000 kategorier.link
NLPtekstMIMIC Critical Care DatabaseHelsevesenComputational Physiology Datasett med avidentifiserte data fra 40,000 XNUMX kritiske pasienter. Datasettet inneholder informasjon som demografi, vitale funksjoner, medisiner osv.link
CVBildeUS National Travel and Tourism OfficeTurismeGir brede fotografier fra reiselivsnæringen med pålitelige databaser, som dekker emner som inngående og utgående reiser og internasjonal turistinformasjon.link
NLPtekstInstitutt for transportTurismeTurismedatasett som inkluderer nasjonalparker, sjåførregistre, broer og jernbaneinformasjon etc.link
NLPlydFlickr Audio Caption CorpusgeneralOver 40 8,000 taletekster fra XNUMX fotografier designet for uovervåkede talemønstrelink
NLPlydDatasett for talekommandoergeneralTalegjenkjenning, lydkommentarer1 sekund lange ytringer fra tusenvis av individer, for å bygge grunnleggende stemmegrensesnitt.link
NLPlydDatasett for miljølydgeneralMiljølyddatasett som inneholder lyd av hendelsestabeller og akustiske scenetabeller.link
NLPtekstCOVID-19 Åpen forskningsdatasett HelsevesenMedisinsk AIEt forskningsdatasett som består av 45,000 19 vitenskapelige artikler om COVID-XNUMX og virusfamilien av coronavirus.link
CVBildeWaymo Åpne datasett BilerDe mest varierte datasettene for autonom kjøring utgitt av Waymolink
CVBildeVisuelt genom generalBildetekstingEn visuell kunnskapsbase med detaljert teksting av over 100 XNUMX bilderlink
CVBildeLabelme Offentlige myndigheterStort sett med kommenterte bilder tilgjengelig gjennom Labelme Matlablink
CVBildeCOIL100generalOver 100 varierte objekter fotografert fra flere vinkler (dvs. 360 grader)link
CVBildeStanford Dogs DatasettgeneralOver 20,500 120+ bilder kategorisert i bildesett med XNUMX forskjellige hunderaserlink
CVBildeInnendørs scenegjenkjenninggeneralScenegjenkjenningEt spesifikt datasett bestående av 15620 bilder fra 67 innendørskategorier for å bygge scenegjenkjenningsmodellerlink
CVBildeVisualQAgeneralEt datasett som inkluderer åpne spørsmål knyttet til 265,016 XNUMX bilder som krever forståelse av syn og språkforståelse for å svare.link
NLPtekstDatasett for multidomene sentimentanalyseE-handelSentiment AnalyseDatasett som inneholder produktanmeldelser fra Amazonlink
NLPtekstIMDB-anmeldelserEntertainmentSentiment AnalyseDatasett som inneholder 25000 filmanmeldelser for sentimentanalyselink
NLPtekstSentiment140generalSentiment AnalyseDatasett som inneholder 160,000 XNUMX tweets med forhåndsfjernede uttrykksikoner for høyere nøyaktighetlink
NLPtekstBloggerkorpusgeneralKeyprase-analyseDatasett som inneholder 681,288 200 blogginnlegg fra blogger.com bestående av minimum XNUMX forekomster av mye brukte engelske ord.link
NLPtekstJeopardygeneralChatbot-treningDatasett med mer enn 200,000 XNUMX spørsmål som kan brukes til å trene maskinlæringsmodeller til intelligent autosvarlink
NLPtekstSMS Spam Collection på engelskTelecomSpamgjenkjenningEt datasett for spammeldinger som består av 5,574 XNUMX engelske SMS-erlink
NLPtekstYelp-anmeldelsergeneralSentiment AnalyseEt datasett med over 5 minutter gjennomgang publisert av Yelplink
NLPtekstUCIs spambaseEnterpriseSpamgjenkjenningEt stort datasett med spam-e-poster, nyttig for spamfiltrering.link
CVVideo, bildeBerkeley DeepDrive BDD100kBilerAutonome kjøretøyerEt av de største datasettet for selvkjørende kunstig intelligens som inneholder 1,100 timers kjøreopplevelser i over 100,000 videoer fra forskjellige tider på dagen fra New York og San Francisco-området.link
CVvideoComma.aiBilerAutonome kjøretøyer Et datasett for 7 timers motorveiskjøring som består av informasjon om bilens hastighet, akselerasjon, styrevinkel og GPS-koordinaterlink
CVVideo, bildeBybildedatasettBilerSemantisk etikett for autonome kjøretøyEt datasett med merknader på 5,000 20,000 pikselnivå pluss et større sett med 50 XNUMX svakt kommenterte rammer i stereovideosekvenser, tatt opp fra XNUMX forskjellige byerlink
CVBildeKUL Belgia trafikkskiltdatasettBilerAutonome kjøretøyerOver 10000+ trafikkskiltkommentarer fra Flandern-regionen basert på fysisk distinkte trafikkskilt fra hele Belgia.link
CVBildeLISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego DatasettBilerAutonome kjøretøyerEt rikt datasett som inneholder trafikkskilt, kjøretøydeteksjon, trafikklys og banemønstre.link
CVBildeCIFAR-10generalGjenkjenning av objekterEt datasett som består av 50,000 10,000 bilder og 60,000 32 testbilder (dvs. 32 10 XNUMX×XNUMX fargebilder i XNUMX klasser) for objektgjenkjenning.link
CVBildeMote MNISTMoteEt bildedatasett som består av 60,000 10,000 eksempler og et testsett med 28 28 eksempler i 10×XNUMX gråtonebilder, tilknyttet en etikett fra XNUMX klasser.link
CVBildeIMDB-Wiki-datasettEntertainmentansiktsgjenkjenningEt stort datasett med ansiktsbilder med etiketter som kjønn og alder. Av de totalt 523,051 460,723 ansiktsbildene er 20,284 62,328 bilder hentet fra XNUMX XNUMX kjendiser fra IMDB og XNUMX XNUMX fra Wikipedia.link
CVvideoKinetikk-700generalFor hver handlingsklasse består høykvalitetsdatasettet av 650,000 700 videoklipp og omfatter 600 menneskelige handlingsklasser med minst 10 videoklipp. Her varer hvert klipp i XNUMX sekunder eller så.link
CVBildeMS CocogeneralObjektdeteksjon, SegmenteringDatasettet inneholder 328 2.5 bilder og har totalt 91 Mn-forekomster og XNUMX objektbilder for å trene opp storskala objektdeteksjon, segmentering og datateksting relaterte ML-modeller.link
CVBildeMPII Human Pose DatasettgeneralRundt 25 40 fotografier som inneholder over 410 XNUMX individer med annoterte kroppsledd er inkludert i datasettet, som brukes til å artikulere menneskelig positur. Totalt sett dekker datasettet XNUMX menneskelige aktiviteter, og hvert bilde er utstyrt med en aktivitetsetikett.link
CVBildeÅpne bildergeneralMerknader for objektplasseringBildedatasett med rundt 9 Mn bilder annotert med bildenivåetiketter, objektgrensebokser, objektsegmentering etc. Datasettet består også av 16 Mn. avgrensningsbokser for 600 objektklasser på 1.9 Mn bilder.link
CVvideoApollo Open Platform, av Baidu Inc, KinaBilerBounding Box, LiDAREt rikt datasett for autonom kjøring, som gir utviklere de nødvendige dataene i autonom kjøring for å akselerere effektiviteten til den innovative iterasjonen.link
CVVideo, bildeArgo, av Argo, USABilerBounding Box, Optical Flow, Behavioral Label, Semantic Label, Lane MarkingEt selvkjørende datasett som består av HD-kart med geometriske og semantiske metadata, dvs. kjørefelts senterlinjer, kjørefeltretning og kjørbart område. Datasettet brukes til å trene ML-modeller, for å lage mer nøyaktige persepsjonsalgoritmer, som vil hjelpe selvkjørende kjøretøy med å navigere trygt.link
CVvideoBosch Small Traffic Lights, av Bosch North America ResearchBilerAvgrensningsboksEt datasett som består av 13427 kamerabilder med 1280*720 oppløsning for å bygge et synsbasert trafikklysdeteksjonssystem. Datasettet har mer enn 24000 kommenterte trafikklys.link
CVvideoBrain4Cars, av Cornell Univ., USABilerAtferdsmerkeEt datasett som består av en rekke kabinsensorer (kameraer, taktile sensorer, smartenheter, etc.) for å trekke ut nyttig statistikk om førerens våkenhet. Algoritmene våre kan oppdage sjåfører som er døsige eller distraherte og øke nødvendige alarmer for å forbedre beskyttelsen.link
CVBildeCULane, ved Chinese Univ. fra Hong Kong, Beijing, KinaBilerKjørefeltmerkingEt Computer Vision-datasett om kjørefeltdeteksjon, bestående av 55 timer med videoer hvorav 133,235 88880 (9675 treningssett, 34680 valideringssett og XNUMX testsett) rammer ble trukket ut. Det samles inn av kameraer montert på seks forskjellige kjøretøyer som kjøres av forskjellige sjåfører i Beijing.link
CVvideoDAVIS, av Univ. av Zürich, ETH ¨ Zürich, Tyskland, SveitsBilerEt ende-til-ende kjøretøy kjøreopplæringsdatasett som bruker et DAVIS event+frame-kamera. Bildata som styring, gass, GPS osv. brukes til å evaluere sammenslåingen av ramme- og hendelsesdata for bilapper.link
CVvideoDBNet, av Shanghai Jiao Tong Univ., Xiamen Univ., KinaBilerPoint Cloud, LiDAREn virkelig 1000 km kjøredata, som inkluderer justert video, punktsky, GPS og sjåføratferd for dyptgående forskning på kjøreatferd.link
CVvideoDr(eye)ve, av Univ. av Modena og Reggio Emilia, Modena, ItaliaBilerAtferdsmerkeDatasett som inneholder 74 videosekvenser på 5 minutter hver, som ble kommentert i mer enn 500,000 XNUMX bilder. Datasettet består av georefererte steder, kjørehastighet, kurs, og merker også sjåførers blikkfiksering og deres tidsmessige integrering, og gir oppgavespesifikke kart.link
CVvideoETH Pedestrian (2009), av ETH Zürich, Zürich, SveitsgeneralAvgrensningsboksEt datasett med 74 videosekvenser på 5 minutter hver, kommentert i mer enn 500,000 XNUMX bilder. Datasettet gir geo-refererte posisjoner, kjørehastighet, retning, og merker også blikkfikseringer for sjåfører og deres tidsmessige integrering, inkludert oppgavespesifikke kart.link
CVvideoFord (2009), av Univ. fra Michigan, Michigan, USABilerBounding Box, , LiDAREt datasett satt sammen av et automatisert landkjøretøy bevæpnet med en Velodyne 3D-lidar-skanner, to push-kvast fremoverskuende Rieg-lidarer, en teknisk og forbruker treghetsmålingsenhet (IMU) og et Point Grey Ladybug3 omnidireksjonelt kamerasystem.link
CVvideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, TysklandgeneralEt datasett med flere millioner bilder fra fangede videoscener som inkluderer et bredt spekter av forskjellige værforhold, flere lag med bevegelse og dybde; situasjoner i by og bygd mv.link
CVvideoJAAD, ved York University, Ukraina, CanadaBilerBounding Box, Behavioral Label"JAAD er et datasett for å studere felles oppmerksomhet i sammenheng med autonom kjøring. Fokuset er på fotgjenger- og føreradferd ved kryssingspunktet og faktorer som påvirker dem. For dette formål gir JAAD-datasettet en rikt kommentert samling av 346 korte videoer klipp (5–10 sek lange) hentet fra over 240 timers kjøreopptak fra flere steder i Nord-Amerika og Øst-Europa. Avgrensningsbokser med okklusjonstagger brukes for alle fotgjengere, noe som gjør dette datasettet egnet for fotgjengerdeteksjon. Atferdsanmerkninger spesifiserer atferd for fotgjengere som samhandler med eller krever oppmerksomhet fra sjåføren. For hver video er det flere tagger (vær, steder osv.) og tidsstemplede adferdsetiketter (f.eks. stoppet, går, ser osv.). I tillegg er en liste over demografiske attributter gitt for hver fotgjenger (f.eks. alder, kjønn, bevegelsesretning osv.) samt en liste over synlige trafikksceneelementer (f.eks. stoppskilt, trafikksignal osv.) i hver ramme."link
CVvideoKAIST Urban, av KAIST, Sør-KoreageneralLiDARDatainnsamlingen inkluderer en rekke stedssensorer for LiDAR-data og stereobilder rettet mot et svært komplekst byområde (f.eks. metropolområder, komplekse bygninger og boligområder).link
CVBildeLISA Trafikkskilt, av Univ. of California, San Diego, USABilerAvgrensningsboksSettet med datasett som inneholder videoer og kommenterte rammer som inneholder amerikanske trafikkskilt. Den slippes i to etapper, en med kun bildene og en med både bilder og videoer.link
CVBildeMapillary Vistas, av Mapillary AB, GlobalBilerSemantisk etikettEt fotodatasett på gatenivå for å tolke gatescener rundt om i verden med pikselnøyaktige og instansspesifikke menneskelige merknader.link
CVVideo, bildeSemantisk KITTI, ved Universitetet i Bonn, Karlsruhe, TysklandBilerBegrensningsboks, semantisk etikett, kjørefeltmerkingEt datasett som inkluderer en semantisk merknad for alle Odometry Benchmark-sekvenser. Datasettet annoterer ulike typer bevegelig og ikke-bevegelig trafikk: inkludert biler, sykler, sykler, fotgjengere og syklister, slik at gjenstander i åstedet kan studeres.link
CVvideoStanford Track, av Stanford Univ., USABilerObjektdeteksjon / klassifisering LiDAR, GPS, koderEt datasett som inkluderer 14,000 64 merkede objektspor som observert av en Velodyne HDL-2E S3 LIDAR i naturlige gatescener, som kan brukes til å trene maskinlæringsmodeller for XNUMXD-objektgjenkjenning.link
CVVideo, bildeThe Boxy Dataset, av Bosch, USABilerBegrensningsboks / kjøretøydeteksjonEt datasett for kjøretøydeteksjon som inneholder 2 millioner merkede kjøretøy for opplæring og analyse av gjenkjenningsstrategier for selvkjørende biler på motorveier.link
CVvideoTME Motorway, ved Tsjekkisk tekniske universitet, Nord-ItaliaBilerAvgrensningsboksEt datasett med 28 klipp i totalt 27 minutter delt inn i 30,000 XNUMX+ merknaderrammer for kjøretøy. Merknader ble produsert semi-automatisk ved hjelp av dataene fra laserskanneren. Denne datainnsamlingen involverer variable trafikkscenarier, antall kjørefelt, veikurvatur og belysning, og dekker mye av betingelsene for den fullstendige anskaffelsen.link
CVvideoLamaer uten tilsyn, av Bosch, USABilerKjørefeltmerking, LiDARUnsupervised Llamas-datasettet ble kommentert ved å generere automatiske kjørekart med høy oppløsning, inkludert Lidar-baserte kjørefeltmarkører. Det autonome kjøretøyet kan justeres mot disse kartene, og kjørefeltmarkeringene projiseres inn i kamerarammen. 3D-projeksjonen er optimalisert ved å minimere avviket mellom allerede observerte og forutsagte bildemarkører.link
NLPlydFacebook AI Multilingual LibriSpeech (MLS)generalLydkommentar / talegjenkjenningFacebook AI Multilingual LibriSpeech (MLS), er et storstilt datasett med åpen kildekode designet for å hjelpe til med å fremme forskning innen automatisk talegjenkjenning (ASR). MLS gir mer enn 50,000 8 timer med lyd på XNUMX språk: engelsk, tysk, nederlandsk, fransk, spansk, italiensk, portugisisk og polsk. link