Datasett med åpen kildekode for å komme i gang med AI/ML-modeller
Utdataene fra AI- og ML-modellene dine er bare like gode som dataene du bruker for å trene dem – så presisjonen du bruker på dataaggregering og tagging og identifisering av disse dataene er viktig!
Så hvis du ønsker å starte et nytt AI/ML-initiativ og nå innser du raskt at det å finne treningsdata av høy kvalitet vil være en av de mer utfordrende aspektene ved prosjektet ditt, siden høykvalitets datasett er drivstoffet som holder AI/ ML-motor i gang. Vi har samlet en liste over åpne datasett som er gratis å bruke og trene dine AI/ML-modeller for fremtiden.
| Spesialisering | Data-type | Datasettnavn | Industri / Avd. | Merknad/brukstilfelle | link |
|---|---|---|---|---|---|
| +NLP | tekst | Amazon Anmeldelser | E-handel | Sentiment Analyse | link |
| Tekniske beskrivelser | Et sett med 35 millioner anmeldelser og vurderinger fra de siste 18 årene i ren tekst med bruker- og produktdetaljer. | ||||
| +NLP | tekst | Wikipedia lenker data | Informasjon | link | |
| Tekniske beskrivelser | Mer enn 4 millioner artikler som inneholder 1.9 milliarder ord fra Wikipedia. Hver artikkel inneholder hyperlenker til den tilknyttede enheten. | ||||
| +NLP | tekst | Standford Sentiment Treebank | Entertainment | Sentiment Analyse | link |
| Tekniske beskrivelser | Datasett med sentimentannotasjoner for over 10 000 setninger fra filmanmeldelser fra Rotten Tomatoes. Tilgjengelig på frasenivå – hver setning analyseres i underfraser ved å binarisere analysetrærne i Penn Treebank-formatet. | ||||
| +NLP | tekst | Twitter US Airline Sentiment | Flyselskap | Sentiment Analyse | link |
| Tekniske beskrivelser | Tweetene om US Airlines i 2015 delte seg inn i positive, nøytrale og negative følelser. | ||||
| +CV | Bilde | Imagenet | Informasjon | link | |
| Tekniske beskrivelser | Datasett med over 14 millioner bilder i forskjellige filformater kartlagt til rundt 21 000 synsett. Synsett er synonymer med tilhørende enheter som vises som et bilde. 1 million bilder har avgrensningsbokser, og mer enn 1 million bilder har SIFT-funksjoner. | ||||
| +CV | Bilde | Googles åpne bilder | Informasjon | link | |
| Tekniske beskrivelser | Et datasett som ligner på ImageNet med 600 kategorier. Tilgjengelig i utviklings-, validerings- og treningssegmenter. Noen bilder inkluderer også avgrensningsbokser og visuelle relasjoner. | ||||
| +NLP | tekst | Cornell-filmdialoger | Entertainment | dialoger | link |
| Tekniske beskrivelser | En samling fiktive samtaler med metadata om karakterer og filmer. Hver rad er en dialog mellom to personer i et spørsmål-svar-format. | ||||
| Tekniske beskrivelser | Et spørsmål-svar-datasett med spørsmål og svar fra Yahoo Answers-portalen mellom april 2007 og oktober 2007. | ||||
| +NLP | tekst | MS MARCO | Informasjon | Spørsmål svar | link |
| Tekniske beskrivelser | Et spørsmål-svar-datasett med merknader fra Bings nettsøklogger. Hvert spørsmål inneholder et svar gitt av en bruker, samt nettpassasjer som inneholder svaret. | ||||
| +NLP | tekst | Naturlige spørsmålsdatasett | Informasjon | Spørsmål svar | link |
| Tekniske beskrivelser | Dette datasettet, utgitt av Google, inneholder ekte brukerspørsmål og svar fra Wikipedia-artikler. | ||||
| +NLP | tekst | DBPedia | Informasjon | Kunnskap Graph | link |
| Tekniske beskrivelser | En strukturert gjengivelse av Wikipedia, med enheter og relasjoner hentet ut som en kunnskapsgraf. | ||||
| +NLP | tekst | YAGO | Informasjon | Kunnskap Graph | link |
| Tekniske beskrivelser | En kunnskapsgraf som inneholder enheter og relasjoner fra Wikipedia, WordNet og GeoNames. | ||||
| +NLP | tekst | FreeBase | Informasjon | Kunnskap Graph | link |
| Tekniske beskrivelser | En kunnskapsbase basert på folkemengder bestående av enheter og relasjoner, nå innlemmet i Googles kunnskapsgraf. | ||||
| +NLP | tekst | Ontonotes | Informasjon | Semantisk rollemerking | link |
| Tekniske beskrivelser | Et korpus med syntaktiske, semantiske og diskursnivåannoteringer brukt i de delte CoNLL-oppgavene. | ||||
| Tekniske beskrivelser | Et engelsk datasett annotert for navngitte enheter som person, organisasjon og sted. | ||||
| +CV | Bilde | COCO | Informasjon | Objektdeteksjon | link |
| Tekniske beskrivelser | Vanlige objekter i kontekst: et rikt annotert datasett for objektdeteksjon, segmentering og teksting. | ||||
| +CV | Bilde | PASCAL VOC | Informasjon | Objektdeteksjon | link |
| Tekniske beskrivelser | Et referansedatasett for utfordringer innen objektdeteksjon og segmentering. | ||||
| +CV | Bilde | Skyskrapere | Autonom kjøring | Semantisk segmentering | link |
| Tekniske beskrivelser | Datasett for forståelse av byscener med annoteringer på pikselnivå for 30 klasser. | ||||
| +CV | Bilde | MNIST | Informasjon | Sifferklassifisering | link |
| Tekniske beskrivelser | Datasett med håndskrevne sifre med 60 000 treningsbilder og 10 000 testbilder på 28 x 28 piksler. | ||||
| +CV | Bilde | Mote-MNIST | Detaljhandel | Bildeklassifisering | link |
| Tekniske beskrivelser | Datasett med Zalandos artikkelbilder i samme format som MNIST, brukt som en drop-in-erstatning for benchmarking. | ||||
| +NLP | lyd | LibriSpeech | Informasjon | ASR | link |
| Tekniske beskrivelser | Et korpus av lest engelsk tale hentet fra lydbøker, med 1000 timer med tale og tilhørende tekster. | ||||
| +NLP | lyd | TED-LIUM | Informasjon | ASR | link |
| Tekniske beskrivelser | Transkriberte TED-foredrag med lyd og justerte transkripsjoner for forskning på talegjenkjenning. | ||||
| +NLP | lyd | TIMIT | Informasjon | Fonemgjenkjenning | link |
| Tekniske beskrivelser | Fonetisk transkribert tale fra amerikansk-engelsktalende, mye brukt til fonemgjenkjenningsoppgaver. | ||||
| +NLP | lyd | Vanlig stemme | Informasjon | ASR | link |
| Tekniske beskrivelser | Et flerspråklig korpus av lest tale bidratt av frivillige over hele verden. | ||||
| +NLP | lyd | VoxCeleb | Informasjon | Høyttalergjenkjenning | link |
| Tekniske beskrivelser | Et storskala datasett for identifisering av høyttalere samlet fra YouTube-videoer. | ||||
| +NLP | tekst | Wikipedia-dump | Informasjon | Språkmodellering | link |
| Tekniske beskrivelser | Fulltekstdumper av Wikipedia-artikler, oppdatert jevnlig, brukt til forhåndstrening av språkmodeller. | ||||
| +NLP | tekst | Gigaword | Nyheter | Språkmodellering | link |
| Tekniske beskrivelser | Et omfattende arkiv med nyhetstekstdata fra flere nyhetsbyråer. | ||||
| +NLP | tekst | IMDB-anmeldelser | Entertainment | Sentiment Analyse | link |
| Tekniske beskrivelser | Stort datasett for filmanmeldelser for binær sentimentklassifisering. | ||||
| +CV | Video | Kinetikk-700 | Informasjon | Handlingsgjenkjenning | link |
| Tekniske beskrivelser | Et storskala datasett med YouTube-videoklipp av høy kvalitet som dekker 700 menneskelige handlingsklasser. | ||||
| +CV | Video | UCF101 | Informasjon | Handlingsgjenkjenning | link |
| Tekniske beskrivelser | Et datasett med realistiske actionvideoer, med 101 actionkategorier. | ||||
| +CV | Video | HMDB51 | Informasjon | Handlingsgjenkjenning | link |
| Tekniske beskrivelser | En stor database med videoer om menneskelig bevegelse med 51 handlingskategorier. | ||||
| Tekniske beskrivelser | En database med ansiktsfotografier designet for å studere ubegrenset ansiktsgjenkjenning. | ||||
| +CV | Bilde | CASIA-WebFace | Informasjon | Face Recognition | link |
| Tekniske beskrivelser | Et datasett med millioner av ansiktsbilder for trening av modeller for dyp ansiktsgjenkjenning. | ||||
| +NLP | tekst | SQUAD | Informasjon | Leseforståelse | link |
| Tekniske beskrivelser | Stanford Question Answering Dataset: spørsmål stilt av crowdworkere om et sett med Wikipedia-artikler. | ||||
| Tekniske beskrivelser | Et datasett for maskinforståelse med spørsmål og svar basert på CNN-nyhetsartikler. | ||||
| +NLP | tekst | MultiNLI | Informasjon | Naturlig språkslutning | link |
| Tekniske beskrivelser | Et datasett for slutning av naturlig språk for setningspar på tvers av flere sjangre. | ||||
| +NLP | tekst | SNLI | Informasjon | Naturlig språkslutning | link |
| Tekniske beskrivelser | Stanford Natural Language Inference Corpus med setningspar merket som entailment, motsigelse eller nøytral. | ||||
| Tekniske beskrivelser | En samling av over 100 millioner tokens hentet fra settet med verifiserte gode og fremhevede artikler på Wikipedia. | ||||
| Tekniske beskrivelser | Et datasett med 16 185 bilder av 196 bilklasser. | ||||
| +CV | Bilde | Oxford Blomster 102 | Botany | Finkornet klassifisering | link |
| Tekniske beskrivelser | 102 blomsterkategorier som ofte forekommer i Storbritannia. | ||||
| +CV | Bilde | CIFAR-10 | Informasjon | Bildeklassifisering | link |
| Tekniske beskrivelser | Bilder av 10 klasser: fly, bil, fugl, katt, hjort, hund, frosk, hest, skip og lastebil. | ||||
| +CV | Bilde | CIFAR-100 | Informasjon | Bildeklassifisering | link |
| Tekniske beskrivelser | Et datasett som ligner på CIFAR-10, men med 100 finkornede klasser. | ||||
| +CV | Bilde | VOC-personoppsett | Informasjon | Pose Estimering | link |
| Tekniske beskrivelser | En del av PASCAL VOC med fokus på annoteringer for personlayout som hode, hender og føtter. | ||||
| +CV | Bilde | MPII Menneskelig positur | Informasjon | Pose Estimering | link |
| Tekniske beskrivelser | Rundt 25 000 bilder som inneholder over 40 000 personer med kommenterte kroppsledd. | ||||
| Tekniske beskrivelser | Samling av Reuters-nyhetsartikler for tekstkategoriseringsforskning. | ||||
| +NLP | tekst | 20 nyhetsgrupper | Informasjon | Tekstklassifisering | link |
| Tekniske beskrivelser | En samling av 20 000 nyhetsgruppedokumenter fordelt på 20 forskjellige nyhetsgrupper. | ||||