Åpne datasett

Oppdag datasett med åpen kildekode som får deg til å trene ML-modeller

Datasett med åpen kildekode for å komme i gang med AI/ML-modeller

Utdataene fra AI- og ML-modellene dine er bare like gode som dataene du bruker for å trene dem – så presisjonen du bruker på dataaggregering og tagging og identifisering av disse dataene er viktig!

Så hvis du ønsker å starte et nytt AI/ML-initiativ og nå innser du raskt at det å finne treningsdata av høy kvalitet vil være en av de mer utfordrende aspektene ved prosjektet ditt, siden høykvalitets datasett er drivstoffet som holder AI/ ML-motor i gang. Vi har samlet en liste over åpne datasett som er gratis å bruke og trene dine AI/ML-modeller for fremtiden.

Spesialisering	Data-type	Datasettnavn	Industri / Avd.	Merknad/brukstilfelle	Beskrivelse	link
NLP	tekst	Amazon Anmeldelser	E-handel	Sentiment Analyse	Et sett med 35 millioner anmeldelser og vurderinger fra de siste 18 årene i ren tekst med bruker- og produktdetaljer.	link
NLP	tekst	Wikipedia lenker data	general		Mer enn 4 Mn. artikler som inneholder 1.9 milliarder kroner. ord som består av ord og uttrykk samt avsnitt.	link
NLP	tekst	Standford Sentiment Treebank	Entertainment	Sentiment Analyse	Sentimentannoteringsdatasett for over 10,000 XNUMX anmeldelser fra Rotten Tomatoes i HTML-filformat	link
NLP	tekst	Twitter US Airline Sentiment	Flyselskap	Sentiment Analyse	Tweets fra 2015 på US Airlines delte seg i positive, negative og nøytrale toner	link
CV	Bilde	Merkede Faces In The Wild	general	ansiktsgjenkjenning	Datasett som inneholder over 13,000 XNUMX beskårne ansikter med to forskjellige bilder for trening for ansiktsgjenkjenning.	link
CV	Video, bilde	UMDFaces-datasett	general	ansiktsgjenkjenning	Kommentert datasett som inneholder over 367,000 8,000 ansikter fra over XNUMX XNUMX emner som inkluderer stillbilder og videobilder.	link
CV	Bilde	Imagenet	general		Datasett med over 14 Mn. bilder i ulike filformater, organisert i henhold til WordNet-hierarkiet.	link
CV	Bilde	Googles åpne bilder	general		9 Mn. URL-er for å kategorisere offentlige bilder fra over 6,000 kategorier.	link
NLP	tekst	MIMIC Critical Care Database	Helsevesen		Computational Physiology Datasett med avidentifiserte data fra 40,000 XNUMX kritiske pasienter. Datasettet inneholder informasjon som demografi, vitale funksjoner, medisiner osv.	link
CV	Bilde	US National Travel and Tourism Office	Turisme		Gir brede fotografier fra reiselivsnæringen med pålitelige databaser, som dekker emner som inngående og utgående reiser og internasjonal turistinformasjon.	link
NLP	tekst	Institutt for transport	Turisme		Turismedatasett som inkluderer nasjonalparker, sjåførregistre, broer og jernbaneinformasjon etc.	link
NLP	lyd	Flickr Audio Caption Corpus	general		Over 40 8,000 taletekster fra XNUMX fotografier designet for uovervåkede talemønstre	link
NLP	lyd	Datasett for talekommandoer	general	Talegjenkjenning, lydkommentarer	1 sekund lange ytringer fra tusenvis av individer, for å bygge grunnleggende stemmegrensesnitt.	link
NLP	lyd	Datasett for miljølyd	general		Miljølyddatasett som inneholder lyd av hendelsestabeller og akustiske scenetabeller.	link
NLP	tekst	COVID-19 Åpen forskningsdatasett	Helsevesen	Medisinsk AI	Et forskningsdatasett som består av 45,000 19 vitenskapelige artikler om COVID-XNUMX og virusfamilien av coronavirus.	link
CV	Bilde	Waymo Åpne datasett	Biler		De mest varierte datasettene for autonom kjøring utgitt av Waymo	link
CV	Bilde	Visuelt genom	general	Bildeteksting	En visuell kunnskapsbase med detaljert teksting av over 100 XNUMX bilder	link
CV	Bilde	Labelme	Offentlige myndigheter		Stort sett med kommenterte bilder tilgjengelig gjennom Labelme Matlab	link
CV	Bilde	COIL100	general		Over 100 varierte objekter fotografert fra flere vinkler (dvs. 360 grader)	link
CV	Bilde	Stanford Dogs Datasett	general		Over 20,500 120+ bilder kategorisert i bildesett med XNUMX forskjellige hunderaser	link
CV	Bilde	Innendørs scenegjenkjenning	general	Scenegjenkjenning	Et spesifikt datasett bestående av 15620 bilder fra 67 innendørskategorier for å bygge scenegjenkjenningsmodeller	link
CV	Bilde	VisualQA	general		Et datasett som inkluderer åpne spørsmål knyttet til 265,016 XNUMX bilder som krever forståelse av syn og språkforståelse for å svare.	link
NLP	tekst	Datasett for multidomene sentimentanalyse	E-handel	Sentiment Analyse	Datasett som inneholder produktanmeldelser fra Amazon	link
NLP	tekst	IMDB-anmeldelser	Entertainment	Sentiment Analyse	Datasett som inneholder 25000 filmanmeldelser for sentimentanalyse	link
NLP	tekst	Sentiment140	general	Sentiment Analyse	Datasett som inneholder 160,000 XNUMX tweets med forhåndsfjernede uttrykksikoner for høyere nøyaktighet	link
NLP	tekst	Bloggerkorpus	general	Keyprase-analyse	Datasett som inneholder 681,288 200 blogginnlegg fra blogger.com bestående av minimum XNUMX forekomster av mye brukte engelske ord.	link
NLP	tekst	Jeopardy	general	Chatbot-trening	Datasett med mer enn 200,000 XNUMX spørsmål som kan brukes til å trene maskinlæringsmodeller til intelligent autosvar	link
NLP	tekst	SMS Spam Collection på engelsk	Telecom	Spamgjenkjenning	Et datasett for spammeldinger som består av 5,574 XNUMX engelske SMS-er	link
NLP	tekst	Yelp-anmeldelser	general	Sentiment Analyse	Et datasett med over 5 minutter gjennomgang publisert av Yelp	link
NLP	tekst	UCIs spambase	Enterprise	Spamgjenkjenning	Et stort datasett med spam-e-poster, nyttig for spamfiltrering.	link
CV	Video, bilde	Berkeley DeepDrive BDD100k	Biler	Autonome kjøretøyer	Et av de største datasettet for selvkjørende kunstig intelligens som inneholder 1,100 timers kjøreopplevelser i over 100,000 videoer fra forskjellige tider på dagen fra New York og San Francisco-området.	link
CV	video	Comma.ai	Biler	Autonome kjøretøyer	Et datasett for 7 timers motorveiskjøring som består av informasjon om bilens hastighet, akselerasjon, styrevinkel og GPS-koordinater	link
CV	Video, bilde	Bybildedatasett	Biler	Semantisk etikett for autonome kjøretøy	Et datasett med merknader på 5,000 20,000 pikselnivå pluss et større sett med 50 XNUMX svakt kommenterte rammer i stereovideosekvenser, tatt opp fra XNUMX forskjellige byer	link
CV	Bilde	KUL Belgia trafikkskiltdatasett	Biler	Autonome kjøretøyer	Over 10000+ trafikkskiltkommentarer fra Flandern-regionen basert på fysisk distinkte trafikkskilt fra hele Belgia.	link
CV	Bilde	LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasett	Biler	Autonome kjøretøyer	Et rikt datasett som inneholder trafikkskilt, kjøretøydeteksjon, trafikklys og banemønstre.	link
CV	Bilde	CIFAR-10	general	Gjenkjenning av objekter	Et datasett som består av 50,000 10,000 bilder og 60,000 32 testbilder (dvs. 32 10 XNUMX×XNUMX fargebilder i XNUMX klasser) for objektgjenkjenning.	link
CV	Bilde	Mote MNIST	Mote		Et bildedatasett som består av 60,000 10,000 eksempler og et testsett med 28 28 eksempler i 10×XNUMX gråtonebilder, tilknyttet en etikett fra XNUMX klasser.	link
CV	Bilde	IMDB-Wiki-datasett	Entertainment	ansiktsgjenkjenning	Et stort datasett med ansiktsbilder med etiketter som kjønn og alder. Av de totalt 523,051 460,723 ansiktsbildene er 20,284 62,328 bilder hentet fra XNUMX XNUMX kjendiser fra IMDB og XNUMX XNUMX fra Wikipedia.	link
CV	video	Kinetikk-700	general		For hver handlingsklasse består høykvalitetsdatasettet av 650,000 700 videoklipp og omfatter 600 menneskelige handlingsklasser med minst 10 videoklipp. Her varer hvert klipp i XNUMX sekunder eller så.	link
CV	Bilde	MS Coco	general	Objektdeteksjon, Segmentering	Datasettet inneholder 328 2.5 bilder og har totalt 91 Mn-forekomster og XNUMX objektbilder for å trene opp storskala objektdeteksjon, segmentering og datateksting relaterte ML-modeller.	link
CV	Bilde	MPII Human Pose Datasett	general		Rundt 25 40 fotografier som inneholder over 410 XNUMX individer med annoterte kroppsledd er inkludert i datasettet, som brukes til å artikulere menneskelig positur. Totalt sett dekker datasettet XNUMX menneskelige aktiviteter, og hvert bilde er utstyrt med en aktivitetsetikett.	link
CV	Bilde	Åpne bilder	general	Merknader for objektplassering	Bildedatasett med rundt 9 Mn bilder annotert med bildenivåetiketter, objektgrensebokser, objektsegmentering etc. Datasettet består også av 16 Mn. avgrensningsbokser for 600 objektklasser på 1.9 Mn bilder.	link
CV	video	Apollo Open Platform, av Baidu Inc, Kina	Biler	Bounding Box, LiDAR	Et rikt datasett for autonom kjøring, som gir utviklere de nødvendige dataene i autonom kjøring for å akselerere effektiviteten til den innovative iterasjonen.	link
CV	Video, bilde	Argo, av Argo, USA	Biler	Bounding Box, Optical Flow, Behavioral Label, Semantic Label, Lane Marking	Et selvkjørende datasett som består av HD-kart med geometriske og semantiske metadata, dvs. kjørefelts senterlinjer, kjørefeltretning og kjørbart område. Datasettet brukes til å trene ML-modeller, for å lage mer nøyaktige persepsjonsalgoritmer, som vil hjelpe selvkjørende kjøretøy med å navigere trygt.	link
CV	video	Bosch Small Traffic Lights, av Bosch North America Research	Biler	Avgrensningsboks	Et datasett som består av 13427 kamerabilder med 1280*720 oppløsning for å bygge et synsbasert trafikklysdeteksjonssystem. Datasettet har mer enn 24000 kommenterte trafikklys.	link
CV	video	Brain4Cars, av Cornell Univ., USA	Biler	Atferdsmerke	Et datasett som består av en rekke kabinsensorer (kameraer, taktile sensorer, smartenheter, etc.) for å trekke ut nyttig statistikk om førerens våkenhet. Algoritmene våre kan oppdage sjåfører som er døsige eller distraherte og øke nødvendige alarmer for å forbedre beskyttelsen.	link
CV	Bilde	CULane, ved Chinese Univ. fra Hong Kong, Beijing, Kina	Biler	Kjørefeltmerking	Et Computer Vision-datasett om kjørefeltdeteksjon, bestående av 55 timer med videoer hvorav 133,235 88880 (9675 treningssett, 34680 valideringssett og XNUMX testsett) rammer ble trukket ut. Det samles inn av kameraer montert på seks forskjellige kjøretøyer som kjøres av forskjellige sjåfører i Beijing.	link
CV	video	DAVIS, av Univ. av Zürich, ETH ¨ Zürich, Tyskland, Sveits	Biler		Et ende-til-ende kjøretøy kjøreopplæringsdatasett som bruker et DAVIS event+frame-kamera. Bildata som styring, gass, GPS osv. brukes til å evaluere sammenslåingen av ramme- og hendelsesdata for bilapper.	link
CV	video	DBNet, av Shanghai Jiao Tong Univ., Xiamen Univ., Kina	Biler	Point Cloud, LiDAR	En virkelig 1000 km kjøredata, som inkluderer justert video, punktsky, GPS og sjåføratferd for dyptgående forskning på kjøreatferd.	link
CV	video	Dr(eye)ve, av Univ. av Modena og Reggio Emilia, Modena, Italia	Biler	Atferdsmerke	Datasett som inneholder 74 videosekvenser på 5 minutter hver, som ble kommentert i mer enn 500,000 XNUMX bilder. Datasettet består av georefererte steder, kjørehastighet, kurs, og merker også sjåførers blikkfiksering og deres tidsmessige integrering, og gir oppgavespesifikke kart.	link
CV	video	ETH Pedestrian (2009), av ETH Zürich, Zürich, Sveits	general	Avgrensningsboks	Et datasett med 74 videosekvenser på 5 minutter hver, kommentert i mer enn 500,000 XNUMX bilder. Datasettet gir geo-refererte posisjoner, kjørehastighet, retning, og merker også blikkfikseringer for sjåfører og deres tidsmessige integrering, inkludert oppgavespesifikke kart.	link
CV	video	Ford (2009), av Univ. fra Michigan, Michigan, USA	Biler	Bounding Box, , LiDAR	Et datasett satt sammen av et automatisert landkjøretøy bevæpnet med en Velodyne 3D-lidar-skanner, to push-kvast fremoverskuende Rieg-lidarer, en teknisk og forbruker treghetsmålingsenhet (IMU) og et Point Grey Ladybug3 omnidireksjonelt kamerasystem.	link
CV	video	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Tyskland	general		Et datasett med flere millioner bilder fra fangede videoscener som inkluderer et bredt spekter av forskjellige værforhold, flere lag med bevegelse og dybde; situasjoner i by og bygd mv.	link
CV	video	JAAD, ved York University, Ukraina, Canada	Biler	Bounding Box, Behavioral Label	"JAAD er et datasett for å studere felles oppmerksomhet i sammenheng med autonom kjøring. Fokuset er på fotgjenger- og føreradferd ved kryssingspunktet og faktorer som påvirker dem. For dette formål gir JAAD-datasettet en rikt kommentert samling av 346 korte videoer klipp (5–10 sek lange) hentet fra over 240 timers kjøreopptak fra flere steder i Nord-Amerika og Øst-Europa. Avgrensningsbokser med okklusjonstagger brukes for alle fotgjengere, noe som gjør dette datasettet egnet for fotgjengerdeteksjon. Atferdsanmerkninger spesifiserer atferd for fotgjengere som samhandler med eller krever oppmerksomhet fra sjåføren. For hver video er det flere tagger (vær, steder osv.) og tidsstemplede adferdsetiketter (f.eks. stoppet, går, ser osv.). I tillegg er en liste over demografiske attributter gitt for hver fotgjenger (f.eks. alder, kjønn, bevegelsesretning osv.) samt en liste over synlige trafikksceneelementer (f.eks. stoppskilt, trafikksignal osv.) i hver ramme."	link
CV	video	KAIST Urban, av KAIST, Sør-Korea	general	LiDAR	Datainnsamlingen inkluderer en rekke stedssensorer for LiDAR-data og stereobilder rettet mot et svært komplekst byområde (f.eks. metropolområder, komplekse bygninger og boligområder).	link
CV	Bilde	LISA Trafikkskilt, av Univ. of California, San Diego, USA	Biler	Avgrensningsboks	Settet med datasett som inneholder videoer og kommenterte rammer som inneholder amerikanske trafikkskilt. Den slippes i to etapper, en med kun bildene og en med både bilder og videoer.	link
CV	Bilde	Mapillary Vistas, av Mapillary AB, Global	Biler	Semantisk etikett	Et fotodatasett på gatenivå for å tolke gatescener rundt om i verden med pikselnøyaktige og instansspesifikke menneskelige merknader.	link
CV	Video, bilde	Semantisk KITTI, ved Universitetet i Bonn, Karlsruhe, Tyskland	Biler	Begrensningsboks, semantisk etikett, kjørefeltmerking	Et datasett som inkluderer en semantisk merknad for alle Odometry Benchmark-sekvenser. Datasettet annoterer ulike typer bevegelig og ikke-bevegelig trafikk: inkludert biler, sykler, sykler, fotgjengere og syklister, slik at gjenstander i åstedet kan studeres.	link
CV	video	Stanford Track, av Stanford Univ., USA	Biler	Objektdeteksjon / klassifisering LiDAR, GPS, koder	Et datasett som inkluderer 14,000 64 merkede objektspor som observert av en Velodyne HDL-2E S3 LIDAR i naturlige gatescener, som kan brukes til å trene maskinlæringsmodeller for XNUMXD-objektgjenkjenning.	link
CV	Video, bilde	The Boxy Dataset, av Bosch, USA	Biler	Begrensningsboks / kjøretøydeteksjon	Et datasett for kjøretøydeteksjon som inneholder 2 millioner merkede kjøretøy for opplæring og analyse av gjenkjenningsstrategier for selvkjørende biler på motorveier.	link
CV	video	TME Motorway, ved Tsjekkisk tekniske universitet, Nord-Italia	Biler	Avgrensningsboks	Et datasett med 28 klipp i totalt 27 minutter delt inn i 30,000 XNUMX+ merknaderrammer for kjøretøy. Merknader ble produsert semi-automatisk ved hjelp av dataene fra laserskanneren. Denne datainnsamlingen involverer variable trafikkscenarier, antall kjørefelt, veikurvatur og belysning, og dekker mye av betingelsene for den fullstendige anskaffelsen.	link
CV	video	Lamaer uten tilsyn, av Bosch, USA	Biler	Kjørefeltmerking, LiDAR	Unsupervised Llamas-datasettet ble kommentert ved å generere automatiske kjørekart med høy oppløsning, inkludert Lidar-baserte kjørefeltmarkører. Det autonome kjøretøyet kan justeres mot disse kartene, og kjørefeltmarkeringene projiseres inn i kamerarammen. 3D-projeksjonen er optimalisert ved å minimere avviket mellom allerede observerte og forutsagte bildemarkører.	link
NLP	lyd	Facebook AI Multilingual LibriSpeech (MLS)	general	Lydkommentar / talegjenkjenning	Facebook AI Multilingual LibriSpeech (MLS), er et storstilt datasett med åpen kildekode designet for å hjelpe til med å fremme forskning innen automatisk talegjenkjenning (ASR). MLS gir mer enn 50,000 8 timer med lyd på XNUMX språk: engelsk, tysk, nederlandsk, fransk, spansk, italiensk, portugisisk og polsk.	link

Åpne datasett

Datasett med åpen kildekode for å komme i gang med AI/ML-modeller

AI-datatjenester

Spesialitet

Industri

Produkter

Organisasjon

Ressurser

Kontakt oss