Januar 4, 2022

15 beste NLP-datasett for å trene deg naturlige språkbehandlingsmodeller

Naturlig språkbehandling er en viktig del av rustningen for maskinlæring. Den trenger imidlertid enorme mengder data og opplæring for at modellen skal fungere bra. Et av de viktigste problemene med NLP er mangelen på opplæringsdatasett som kan dekke store interessefelt innenfor domenet.

Hvis du starter med dette enorme feltet, kan det hende du synes det er utfordrende og praktisk talt overflødig å lage datasettene dine. Spesielt når det er kvalitet NLP datasett tilgjengelig for å trene maskinlæringsmodellene dine basert på deres formål.

NLP-markedet er beregnet til å vokse med en CAGR på 11.7 % i løpet av 2018 og 2026 for å nå 28.6 milliarder dollar innen 2026. Takket være den økende etterspørselen etter NLP og maskinlæring, er det nå mulig å få tak i kvalitetsdatasett som passer til sentimentanalyse, anmeldelser, spørsmål og svaranalyse og taleanalysedatasett.

NLP-datasettene for maskinlæring du kan stole på

Siden utallige datasett – med fokus på ulike behov – blir utgitt nesten hver dag, kan det være utfordrende å få tilgang til kvalitets, pålitelige og beste datasett. Her har vi gjort arbeidet enklere for deg, siden vi har presentert deg kuraterte datasett segregert basert på kategoriene de betjener.

general

UCIs spambase (Link)

Spambase, opprettet ved Hewlett-Packard Labs, har en samling av spam-e-poster fra brukerne, med sikte på å utvikle et personlig spamfilter. Den har mer enn 4600 observasjoner fra e-postmeldinger, hvorav nærmere 1820 er spam.

Enron datasett (Link)

Enron-datasettet har en enorm samling anonymiserte "ekte" e-poster tilgjengelig for publikum for å trene maskinlæringsmodellene deres. Den har mer enn en halv million e-poster fra over 150 brukere, hovedsakelig Enrons toppledelse. Dette datasettet er tilgjengelig for bruk i både strukturerte og ustrukturerte formater. For å piffe opp de ustrukturerte dataene, må du bruke databehandlingsteknikker.

Recommender Systems datasett (Link)

Recommender System-datasettet er en enorm samling av forskjellige datasett som inneholder forskjellige funksjoner som,

Produktomtaler
Stjernerangeringer
Treningssporing
Sangdata
Sosiale nettverk
Tidsstempler
Bruker/vare-interaksjoner
GPS -data

Sentiment Analyse

Ordbøker for film og finans (Link)

Ordbøker for filmer og finans-datasettet gir domenespesifikke ordbøker for positiv eller negativ polaritet i finansutfyllinger og filmanmeldelser. Disse ordbøkene er hentet fra IMDb og US Form-8-fyllinger.

Følelse 140 (Link)

Sentiment 140 har mer enn 160,000 6 tweets med forskjellige uttrykksikoner kategorisert i XNUMX forskjellige felt: tweetdato, polaritet, tekst, brukernavn, ID og spørring. Dette datasettet gjør det mulig for deg å oppdage følelsen til et merke, et produkt eller til og med et emne basert på Twitter-aktivitet. Siden dette datasettet opprettes automatisk, i motsetning til andre menneskekommenterte tweets, klassifiserer det tweets med positive følelser og negative følelser som ugunstige.

Multi-Domain Sentiment datasett (Link)

Dette multidomene sentiment-datasettet er et oppbevaringssted for Amazon-anmeldelser for ulike produkter. Noen produktkategorier, for eksempel bøker, har tusenvis av anmeldelser, mens andre bare har noen få hundre anmeldelser. Dessuten kan anmeldelser med stjernerangeringer konverteres til binære etiketter.

La oss diskutere AI Training Data-kravet i dag.

tekst

Wiki QA Corpus (Link)

WiKi QA Corpus er et av de mest omfattende offentlig tilgjengelige datasettene, laget for å hjelpe forskningen på spørsmål og svar med åpent domene. Kompilert fra Bing-søkemotorsøkeloggene, kommer den med spørsmål-og-svar-par. Den har mer enn 3000 spørsmål og 1500 merkede svarsetninger.

Datasett for juridiske saksrapporter (Link)

Legal Case Reports datasettet har en samling på 4000 juridiske saker og kan brukes til å trene for automatisk tekstoppsummering og siteringsanalyse. Hvert dokument, slagord, sitatklasser, sitatslag og mer brukes.

Jeopardy (Link)

Jeopardy-datasettet er en samling av mer enn 200,000 XNUMX spørsmål i det populære quiz-TV-programmet samlet av en Reddit-bruker. Hvert datapunkt er klassifisert etter utsendelsesdato, episodenummer, verdi, runde og spørsmål/svar.

Lyd tale

Talt Wikipedia Corpora (Link)

Dette datasettet er perfekt for alle som ønsker å gå utover det engelske språket. Dette datasettet har en samling artikler som snakkes på nederlandsk og tysk og engelsk. Den har et mangfoldig utvalg av emner og høyttalersett som varer i hundrevis av timer.

2000 HUB5 engelsk (Link)

2000 HUB5 engelsk datasett har 40 telefonsamtaler transkripsjoner på engelsk. Dataene er levert av National Institute of Standards and Technology, og hovedfokuset er på å gjenkjenne samtaletale og konvertere tale til tekst.

LibriSpeech (Link)

LibriSpeech-datasettet er en samling på nesten 1000 timer med engelsk tale tatt og riktig segmentert etter emner i kapitler fra lydbøker, noe som gjør det til et perfekt verktøy for naturlig språkbehandling.

Anmeldelser

Yelp-anmeldelser (Link)

Yelp-datasettet har en enorm samling på rundt 8.5 millioner anmeldelser av 160,000 200,000 pluss bedrifter, deres anmeldelser og brukerdata. Omtalene kan brukes til å trene modellene dine på sentimentanalyse. Dessuten har dette datasettet også mer enn XNUMX XNUMX bilder som dekker åtte storbysteder.

IMDB-anmeldelser (Link)

IMDB-anmeldelser er blant de mest populære datasettene som inneholder rollebesetningsinformasjon, rangeringer, beskrivelse og sjanger for mer enn 50 tusen filmer. Dette datasettet kan brukes til å teste og trene maskinlæringsmodellene dine.

Amazon anmeldelser og vurderingsdatasett (Link)

Amazon vurderings- og vurderingsdatasett inneholder en verdifull samling metadata og anmeldelser av forskjellige produkter fra Amazon samlet inn fra 1996 til 2014 – omtrent 142.8 millioner poster. Metadataene inkluderer pris, produktbeskrivelse, merke, kategori med mer, mens anmeldelsene har tekstkvalitet, tekstens nytteverdi, vurderinger med mer.

Så, hvilket datasett har du valgt å trene maskinlæringsmodellen din på?

Mens vi går, vil vi etterlate deg med en pro-tips.

Sørg for å gå grundig gjennom README-filen før du velger et NLP-datasett for dine behov. Datasettet vil inneholde all nødvendig informasjon du måtte trenge, for eksempel datasettets innhold, de ulike parameterne som dataene er kategorisert på, og sannsynlige brukstilfeller av datasettet.

Uansett hvilke modeller du bygger, er det en spennende mulighet til å integrere maskinene våre tettere og mer iboende med livene våre. Med NLP økes mulighetene for forretninger, filmer, talegjenkjenning, økonomi og mer mangfoldig. Hvis du ser etter flere slike datasett Klikk her.

Sosial Share

Snakk med en ekspert

Fornavn*
Etternavn*
Epost*
Telefon*
Organisasjon*
Land*
Land
Kommentar*
Ved å registrere meg godtar jeg Shaip Personvernserklæring og Våre vilkår og gi mitt samtykke til å motta B2B-markedsføringskommunikasjon fra Shaip.
CAPTCHA

Last ned gratis bok

Kan hende du også liker

15 beste NLP-datasett for å trene deg naturlige språkbehandlingsmodeller

NLP-datasettene for maskinlæring du kan stole på

general

UCIs spambase (Link)

Enron datasett (Link)

Recommender Systems datasett (Link)

Sentiment Analyse

Ordbøker for film og finans (Link)

Følelse 140 (Link)

Multi-Domain Sentiment datasett (Link)

tekst

Wiki QA Corpus (Link)

Datasett for juridiske saksrapporter (Link)

Jeopardy (Link)

Lyd tale

Talt Wikipedia Corpora (Link)

2000 HUB5 engelsk (Link)

LibriSpeech (Link)

Anmeldelser

Yelp-anmeldelser (Link)

IMDB-anmeldelser (Link)

Amazon anmeldelser og vurderingsdatasett (Link)

Sosial Share

Snakk med en ekspert

AI-datatjenester

Spesialitet

Industri

Produkter

Organisasjon

Ressurser

Kontakt oss