NLP-datasett for ML

15 beste NLP-datasett for å trene deg naturlige språkbehandlingsmodeller

Naturlig språkbehandling er en viktig del av rustningen for maskinlæring. Den trenger imidlertid enorme mengder data og opplæring for at modellen skal fungere bra. Et av de viktigste problemene med NLP er mangelen på opplæringsdatasett som kan dekke store interessefelt innenfor domenet.

Hvis du starter med dette enorme feltet, kan det hende du synes det er utfordrende og praktisk talt overflødig å lage datasettene dine. Spesielt når det er kvalitet NLP datasett tilgjengelig for å trene maskinlæringsmodellene dine basert på deres formål.

NLP-markedet er beregnet til å vokse med en CAGR på 11.7 % i løpet av 2018 og 2026 for å nå 28.6 milliarder dollar innen 2026. Takket være den økende etterspørselen etter NLP og maskinlæring, er det nå mulig å få tak i kvalitetsdatasett som passer til sentimentanalyse, anmeldelser, spørsmål og svaranalyse og taleanalysedatasett.

NLP-datasettene for maskinlæring du kan stole på

Siden utallige datasett – med fokus på ulike behov – blir utgitt nesten hver dag, kan det være utfordrende å få tilgang til kvalitets, pålitelige og beste datasett. Her har vi gjort arbeidet enklere for deg, siden vi har presentert deg kuraterte datasett segregert basert på kategoriene de betjener.

general

Spambase, opprettet ved Hewlett-Packard Labs, har en samling av spam-e-poster fra brukerne, med sikte på å utvikle et personlig spamfilter. Den har mer enn 4600 observasjoner fra e-postmeldinger, hvorav nærmere 1820 er spam.

Enron-datasettet har en enorm samling anonymiserte "ekte" e-poster tilgjengelig for publikum for å trene maskinlæringsmodellene deres. Den har mer enn en halv million e-poster fra over 150 brukere, hovedsakelig Enrons toppledelse. Dette datasettet er tilgjengelig for bruk i både strukturerte og ustrukturerte formater. For å piffe opp de ustrukturerte dataene, må du bruke databehandlingsteknikker.

  • Recommender Systems datasett (Link)

Recommender System-datasettet er en enorm samling av forskjellige datasett som inneholder forskjellige funksjoner som,

  • Produktomtaler
  • Stjernerangeringer
  • Treningssporing
  • Sangdata
  • Sosiale nettverk
  • Tidsstempler
  • Bruker/vare-interaksjoner
  • GPS -data

Sentiment Analyse

  • Ordbøker for film og finans (Link)

Sentimentanalyse
Ordbøker for filmer og finans-datasettet gir domenespesifikke ordbøker for positiv eller negativ polaritet i finansutfyllinger og filmanmeldelser. Disse ordbøkene er hentet fra IMDb og US Form-8-fyllinger.

Sentiment 140 har mer enn 160,000 6 tweets med forskjellige uttrykksikoner kategorisert i XNUMX forskjellige felt: tweetdato, polaritet, tekst, brukernavn, ID og spørring. Dette datasettet gjør det mulig for deg å oppdage følelsen til et merke, et produkt eller til og med et emne basert på Twitter-aktivitet. Siden dette datasettet opprettes automatisk, i motsetning til andre menneskekommenterte tweets, klassifiserer det tweets med positive følelser og negative følelser som ugunstige.

  • Multi-Domain Sentiment datasett (Link)

Dette multidomene sentiment-datasettet er et oppbevaringssted for Amazon-anmeldelser for ulike produkter. Noen produktkategorier, for eksempel bøker, har tusenvis av anmeldelser, mens andre bare har noen få hundre anmeldelser. Dessuten kan anmeldelser med stjernerangeringer konverteres til binære etiketter.

La oss diskutere AI Training Data-kravet i dag.

tekst

WiKi QA Corpus er et av de mest omfattende offentlig tilgjengelige datasettene, laget for å hjelpe forskningen på spørsmål og svar med åpent domene. Kompilert fra Bing-søkemotorsøkeloggene, kommer den med spørsmål-og-svar-par. Den har mer enn 3000 spørsmål og 1500 merkede svarsetninger.

  • Datasett for juridiske saksrapporter (Link)

Legal Case Reports datasettet har en samling på 4000 juridiske saker og kan brukes til å trene for automatisk tekstoppsummering og siteringsanalyse. Hvert dokument, slagord, sitatklasser, sitatslag og mer brukes.

Jeopardy-datasettet er en samling av mer enn 200,000 XNUMX spørsmål i det populære quiz-TV-programmet samlet av en Reddit-bruker. Hvert datapunkt er klassifisert etter utsendelsesdato, episodenummer, verdi, runde og spørsmål/svar.

Lyd tale

Lyd tale Dette datasettet er perfekt for alle som ønsker å gå utover det engelske språket. Dette datasettet har en samling artikler som snakkes på nederlandsk og tysk og engelsk. Den har et mangfoldig utvalg av emner og høyttalersett som varer i hundrevis av timer.

2000 HUB5 engelsk datasett har 40 telefonsamtaler transkripsjoner på engelsk. Dataene er levert av National Institute of Standards and Technology, og hovedfokuset er på å gjenkjenne samtaletale og konvertere tale til tekst.

LibriSpeech-datasettet er en samling på nesten 1000 timer med engelsk tale tatt og riktig segmentert etter emner i kapitler fra lydbøker, noe som gjør det til et perfekt verktøy for naturlig språkbehandling.

Anmeldelser

Yelp-datasettet har en enorm samling på rundt 8.5 millioner anmeldelser av 160,000 200,000 pluss bedrifter, deres anmeldelser og brukerdata. Omtalene kan brukes til å trene modellene dine på sentimentanalyse. Dessuten har dette datasettet også mer enn XNUMX XNUMX bilder som dekker åtte storbysteder.

IMDB-anmeldelser er blant de mest populære datasettene som inneholder rollebesetningsinformasjon, rangeringer, beskrivelse og sjanger for mer enn 50 tusen filmer. Dette datasettet kan brukes til å teste og trene maskinlæringsmodellene dine.

  • Amazon anmeldelser og vurderingsdatasett (Link)

Amazon vurderings- og vurderingsdatasett inneholder en verdifull samling metadata og anmeldelser av forskjellige produkter fra Amazon samlet inn fra 1996 til 2014 – omtrent 142.8 millioner poster. Metadataene inkluderer pris, produktbeskrivelse, merke, kategori med mer, mens anmeldelsene har tekstkvalitet, tekstens nytteverdi, vurderinger med mer.

Så, hvilket datasett har du valgt å trene maskinlæringsmodellen din på?

Mens vi går, vil vi etterlate deg med en pro-tips. 

Sørg for å gå grundig gjennom README-filen før du velger et NLP-datasett for dine behov. Datasettet vil inneholde all nødvendig informasjon du måtte trenge, for eksempel datasettets innhold, de ulike parameterne som dataene er kategorisert på, og sannsynlige brukstilfeller av datasettet.

Uansett hvilke modeller du bygger, er det en spennende mulighet til å integrere maskinene våre tettere og mer iboende med livene våre. Med NLP økes mulighetene for forretninger, filmer, talegjenkjenning, økonomi og mer mangfoldig. Hvis du ser etter flere slike datasett Klikk her.

Sosial Share

Kan hende du også liker