NLP-datasett for ML

33 beste NLP-datasett for å trene dine naturlige språkbehandlingsmodeller

Naturlig språkbehandling er en viktig del av rustningen for maskinlæring. Den trenger imidlertid enorme mengder data og opplæring for at modellen skal fungere bra. Et av de viktigste problemene med NLP er mangelen på opplæringsdatasett som kan dekke store interessefelt innenfor domenet.

Hvis du starter med dette enorme feltet, kan det hende du synes det er utfordrende og praktisk talt overflødig å lage datasettene dine. Spesielt når det er tilgjengelige NLP-datasett av høy kvalitet for å trene maskinlæringsmodellene dine basert på deres formål.

NLP-markedet er beregnet til å vokse med en CAGR på 11.7 % i løpet av 2018 og 2026 for å nå 28.6 milliarder dollar innen 2026. Takket være den økende etterspørselen etter NLP og maskinlæring, er det nå mulig å få tak i kvalitetsdatasett som passer til sentimentanalyse, anmeldelser, spørsmål og svaranalyse og taleanalysedatasett.

NLP-datasettene for maskinlæring du kan stole på

Siden utallige datasett – med fokus på ulike behov – blir utgitt nesten hver dag, kan det være utfordrende å få tilgang til kvalitet, pålitelige og beste datasett. Her har vi gjort arbeidet enklere for deg, siden vi har presentert deg kuraterte datasett segregert basert på kategoriene de betjener.

general

  • UCIs spambase (Link)

    Spambase, opprettet ved Hewlett-Packard Labs, har en samling av spam-e-poster fra brukerne, med sikte på å utvikle et personlig spamfilter. Den har mer enn 4600 observasjoner fra e-postmeldinger, hvorav nærmere 1820 er spam.

  • Enron datasett (Link)

    Enron-datasettet har en enorm samling anonymiserte "ekte" e-poster tilgjengelig for publikum for å trene maskinlæringsmodellene deres. Den har mer enn en halv million e-poster fra over 150 brukere, hovedsakelig Enrons toppledelse. Dette datasettet er tilgjengelig for bruk i både strukturerte og ustrukturerte formater. For å piffe opp de ustrukturerte dataene, må du bruke databehandlingsteknikker.

  • Recommender Systems datasett (Link)

    Recommender System-datasettet er en enorm samling av forskjellige datasett som inneholder forskjellige funksjoner som,

    • Produktomtaler
    • Stjernerangeringer
    • Treningssporing
    • Sangdata
    • Sosiale nettverk
    • Tidsstempler
    • Bruker/vare-interaksjoner
    • GPS -data
  • Penn Treebank (Link)

    Dette korpuset, fra Wall Street Journal, er populært for testing av sekvensmerkingsmodeller.

  • NLTK (Link)

    Dette Python-biblioteket gir tilgang til over 100 korpus og leksikalske ressurser for NLP. Den inkluderer også NLTK-boken, et opplæringskurs for bruk av biblioteket.

  • Universelle avhengigheter (Link)

    UD gir en konsekvent måte å kommentere grammatikk på, med ressurser på over 100 språk, 200 trebanker og støtte fra over 300 fellesskapsmedlemmer.

Sentiment Analyse

  • Ordbøker for film og finans (Link)

    Sentimentanalyse
    Ordbøker for filmer og finans-datasettet gir domenespesifikke ordbøker for positiv eller negativ polaritet i finansutfyllinger og filmanmeldelser. Disse ordbøkene er hentet fra IMDb og US Form-8-fyllinger.

  • Følelse 140 (Link)

    Sentiment 140 har mer enn 160,000 6 tweets med forskjellige uttrykksikoner kategorisert i XNUMX forskjellige felt: tweetdato, polaritet, tekst, brukernavn, ID og spørring. Dette datasettet gjør det mulig for deg å oppdage følelsen til et merke, et produkt eller til og med et emne basert på Twitter-aktivitet. Siden dette datasettet opprettes automatisk, i motsetning til andre menneskekommenterte tweets, klassifiserer det tweets med positive følelser og negative følelser som ugunstige.

  • Multi-Domain Sentiment datasett (Link)

    Dette multidomene sentiment-datasettet er et oppbevaringssted for Amazon-anmeldelser for ulike produkter. Noen produktkategorier, for eksempel bøker, har tusenvis av anmeldelser, mens andre bare har noen få hundre anmeldelser. Dessuten kan anmeldelser med stjernerangeringer konverteres til binære etiketter.

  • Standford Sentiment TreeBank (Link)

    Dette NLP-datasettet fra Rotten Tomatoes inneholder lengre setninger og mer detaljerte teksteksempler.

  • The Blog Authorship Corpus (Link)

    Denne samlingen har blogginnlegg med nesten 1.4 millioner ord, hver blogg er et eget datasett.

  • OpinRank-datasett (Link)

    300,000 XNUMX anmeldelser fra Edmunds og TripAdvisor, organisert etter bilmodell eller reisemål og hotell.

tekst

  • Wiki QA Corpus (Link)

    WiKi QA Corpus er et av de mest omfattende offentlig tilgjengelige datasettene, laget for å hjelpe forskningen på spørsmål og svar med åpent domene. Kompilert fra Bing-søkemotorsøkeloggene, kommer den med spørsmål-og-svar-par. Den har mer enn 3000 spørsmål og 1500 merkede svarsetninger.

  • Datasett for juridiske saksrapporter (Link)

    Legal Case Reports datasettet har en samling på 4000 juridiske saker og kan brukes til å trene for automatisk tekstoppsummering og siteringsanalyse. Hvert dokument, slagord, sitatklasser, sitatslag og mer brukes.

  • Jeopardy (Link)

    Jeopardy-datasettet er en samling av mer enn 200,000 XNUMX spørsmål i det populære quiz-TV-programmet samlet av en Reddit-bruker. Hvert datapunkt er klassifisert etter utsendelsesdato, episodenummer, verdi, runde og spørsmål/svar.

  • 20 nyhetsgrupper (Link)

    En samling på 20,000 20 dokumenter omfatter XNUMX nyhetsgrupper og emner, som beskriver emner fra religion til populær sport.

  • Reuters nyhetsdatasett (Link)

    Dette datasettet ble først vist i 1987, og har blitt merket, indeksert og kompilert for maskinlæringsformål.

  • arxiv (Link)

    Dette betydelige datasettet på 270 GB inkluderer den fullstendige teksten til alle arXiv-forskningsartikler.

  • Europaparlamentets saksbehandling Parallell Corpus (Link)

    Setningspar fra parlamentsbehandlingen inkluderer oppføringer fra 21 europeiske språk, med noen mindre vanlige språk for maskinlæringskorpus.

  • Milliarder Word-referanse (Link)

    Avledet fra WMT 2011 News Crawl, omfatter dette språkmodelleringsdatasettet nesten én milliard ord for å teste innovative språkmodelleringsteknikker.

Lyd tale

  • Talt Wikipedia Corpora (Link)

    Lyd tale Dette datasettet er perfekt for alle som ønsker å gå utover det engelske språket. Dette datasettet har en samling artikler som snakkes på nederlandsk og tysk og engelsk. Den har et mangfoldig utvalg av emner og høyttalersett som varer i hundrevis av timer.

  • 2000 HUB5 engelsk (Link)

    2000 HUB5 engelsk datasett har 40 telefonsamtaler transkripsjoner på engelsk. Dataene er levert av National Institute of Standards and Technology, og hovedfokuset er på å gjenkjenne samtaletale og konvertere tale til tekst.

  • LibriSpeech (Link)

    LibriSpeech-datasettet er en samling på nesten 1000 timer med engelsk tale tatt og riktig segmentert etter emner i kapitler fra lydbøker, noe som gjør det til et perfekt verktøy for naturlig språkbehandling.

  • Gratis talte sifferdatasett (Link)

    Dette NLP-datasettet inneholder mer enn 1,500 opptak av talte sifre på engelsk.

  • M-AI Labs taledatasett (Link)

    Datasettet tilbyr nesten 1,000 timer med lyd med transkripsjoner, som omfatter flere språk og kategorisert etter mannlige, kvinnelige og blandede stemmer.

  • Støyende taledatabase (Lenke)

    Dette datasettet inneholder parallelle støyende og rene taleopptak, beregnet for utvikling av taleforbedringsprogramvare, men også fordelaktig for opplæring i tale under utfordrende forhold.

Anmeldelser

  • Yelp-anmeldelser (Link)

    Yelp-datasettet har en enorm samling på rundt 8.5 millioner anmeldelser av 160,000 200,000 pluss bedrifter, deres anmeldelser og brukerdata. Omtalene kan brukes til å trene modellene dine på sentimentanalyse. Dessuten har dette datasettet også mer enn XNUMX XNUMX bilder som dekker åtte storbysteder.

  • IMDB-anmeldelser (Link)

    IMDB-anmeldelser er blant de mest populære datasettene som inneholder rollebesetningsinformasjon, rangeringer, beskrivelse og sjanger for mer enn 50 tusen filmer. Dette datasettet kan brukes til å teste og trene maskinlæringsmodellene dine.

  • Amazon anmeldelser og vurderingsdatasett (Link)

    Amazon vurderings- og vurderingsdatasett inneholder en verdifull samling metadata og anmeldelser av forskjellige produkter fra Amazon samlet inn fra 1996 til 2014 – omtrent 142.8 millioner poster. Metadataene inkluderer pris, produktbeskrivelse, merke, kategori med mer, mens anmeldelsene har tekstkvalitet, tekstens nytteverdi, vurderinger med mer.

Spørsmål og svar

  • Stanford Question and Answer Dataset (SQuAD) (Link)

    Dette leseforståelsesdatasettet har 100,000 50,000 svarbare spørsmål og XNUMX XNUMX ubesvarbare spørsmål, alle laget av Wikipedia-publikumsarbeidere.

  • Naturlige spørsmål (Link)

    Dette opplæringssettet har over 300,000 7,800 treningseksempler, 7,800 utviklingseksempler og XNUMX testeksempler, hver med et Google-søk og en matchende Wikipedia-side.

  • TriviaQA (Link)

    Dette utfordrende spørsmålssettet har 950,000 XNUMX QA-par, inkludert både menneskeverifiserte og maskingenererte delsett.

  • CLEVR (Compositional Language and Elementary Visual Reasoning) (Link)

    Dette visuelle spørsmålssvarssettet inneholder 3D-gjengitte objekter og tusenvis av spørsmål med detaljer om den visuelle scenen.

Så, hvilket datasett har du valgt å trene maskinlæringsmodellen din på?

Mens vi går, vil vi etterlate deg med en pro-tips.

Sørg for å gå grundig gjennom README-filen før du velger et NLP-datasett for dine behov. Datasettet vil inneholde all nødvendig informasjon du måtte trenge, for eksempel datasettets innhold, de ulike parameterne som dataene er kategorisert på, og sannsynlige brukstilfeller av datasettet.

Uansett hvilke modeller du bygger, er det en spennende mulighet til å integrere maskinene våre tettere og mer iboende med livene våre. Med NLP økes mulighetene for forretninger, filmer, talegjenkjenning, økonomi og mer mangfoldig.

Sosial Share