Hva er NLP?
NLP (Natural Language Processing) hjelper datamaskiner å forstå menneskelig språk. Det er som å lære datamaskiner å lese, forstå og svare på tekst og tale slik mennesker gjør.
Hva kan NLP gjøre?
- Gjør rotete tekst til organiserte data
- Forstå om kommentarer er positive eller negative
- Oversett mellom språk
- Lag sammendrag av lange tekster
- Og mye mer!
- Komme i gang med NLP:
For å bygge gode NLP-systemer trenger du mange eksempler for å trene dem – akkurat som hvordan mennesker lærer bedre med mer trening. Den gode nyheten er at det er mange gratis ressurser hvor du kan finne disse eksemplene: Klemme ansiktet, kaggle og GitHub
NLP-markedsstørrelse og vekst:
Fra 2023 ble markedet for Natural Language Processing (NLP) verdsatt til rundt 26 milliarder dollar. Det forventes å vokse betydelig, med en sammensatt årlig vekstrate (CAGR) på rundt 30 % fra 2023 til 2030. Denne veksten er drevet av økende etterspørsel etter NLP-applikasjoner i bransjer som helsevesen, finans og kundeservice.
Hvordan velge et godt NLP-datasett, vurder følgende faktorer:
- Relevans: Sørg for at datasettet er på linje med din spesifikke oppgave eller domene.
- Størrelse: Større datasett forbedrer generelt modellens ytelse, men balanserer størrelse med kvalitet.
- Mangfold: Se etter datasett med varierte språkstiler og kontekster for å forbedre modellens robusthet.
- Quality: Se etter godt merket og nøyaktige data for å unngå å introdusere feil.
- tilgjengelighet: Sørg for at datasettet er tilgjengelig for bruk og vurder eventuelle lisensieringsbegrensninger.
- forbehandling: Bestem om datasettet krever betydelig rengjøring eller forbehandling.
- Fellesskapet Support: Populære datasett har ofte flere ressurser og fellesskapsstøtte, noe som kan være nyttig.
Ved å evaluere disse faktorene kan du velge et datasett som passer best til prosjektets behov
Topp 33 må-se åpne datasett for NLP
general
UCIs spambase (Link)
Spambase, opprettet ved Hewlett-Packard Labs, har en samling av spam-e-poster fra brukerne, med sikte på å utvikle et personlig spamfilter. Den har mer enn 4600 observasjoner fra e-postmeldinger, hvorav nærmere 1820 er spam.
Enron datasett (Link)
Enron-datasettet har en enorm samling anonymiserte "ekte" e-poster tilgjengelig for publikum for å trene maskinlæringsmodellene deres. Den har mer enn en halv million e-poster fra over 150 brukere, hovedsakelig Enrons toppledelse. Dette datasettet er tilgjengelig for bruk i både strukturerte og ustrukturerte formater. For å piffe opp de ustrukturerte dataene, må du bruke databehandlingsteknikker.
Recommender Systems datasett (Link)
Recommender System-datasettet er en enorm samling av forskjellige datasett som inneholder forskjellige funksjoner som,
- Produktomtaler
- Stjernerangeringer
- Treningssporing
- Sangdata
- Sosiale nettverk
- Tidsstempler
- Bruker/vare-interaksjoner
- GPS -data
Penn Treebank (Link)
Dette korpuset, fra Wall Street Journal, er populært for testing av sekvensmerkingsmodeller.
NLTK (Link)
Dette Python-biblioteket gir tilgang til over 100 korpus og leksikalske ressurser for NLP. Den inkluderer også NLTK-boken, et opplæringskurs for bruk av biblioteket.
Universelle avhengigheter (Link)
UD gir en konsekvent måte å kommentere grammatikk på, med ressurser på over 100 språk, 200 trebanker og støtte fra over 300 fellesskapsmedlemmer.
Sentiment Analyse
Ordbøker for film og finans (Link)
Ordbøker for filmer og finans-datasettet gir domenespesifikke ordbøker for positiv eller negativ polaritet i finansutfyllinger og filmanmeldelser. Disse ordbøkene er hentet fra IMDb og US Form-8-fyllinger.Følelse 140 (Link)
Sentiment 140 har mer enn 160,000 6 tweets med forskjellige uttrykksikoner kategorisert i XNUMX forskjellige felt: tweetdato, polaritet, tekst, brukernavn, ID og spørring. Dette datasettet gjør det mulig for deg å oppdage følelsen til et merke, et produkt eller til og med et emne basert på Twitter-aktivitet. Siden dette datasettet opprettes automatisk, i motsetning til andre menneskekommenterte tweets, klassifiserer det tweets med positive følelser og negative følelser som ugunstige.
Multi-Domain Sentiment datasett (Link)
Dette multidomene sentiment-datasettet er et oppbevaringssted for Amazon-anmeldelser for ulike produkter. Noen produktkategorier, for eksempel bøker, har tusenvis av anmeldelser, mens andre bare har noen få hundre anmeldelser. Dessuten kan anmeldelser med stjernerangeringer konverteres til binære etiketter.
Standford Sentiment TreeBank (Link)
Dette NLP-datasettet fra Rotten Tomatoes inneholder lengre setninger og mer detaljerte teksteksempler.
The Blog Authorship Corpus (Link)
Denne samlingen har blogginnlegg med nesten 1.4 millioner ord, hver blogg er et eget datasett.
OpinRank-datasett (Link)
300,000 XNUMX anmeldelser fra Edmunds og TripAdvisor, organisert etter bilmodell eller reisemål og hotell.
tekst
-
Wiki QA Corpus (Link)
WiKi QA Corpus er et av de mest omfattende offentlig tilgjengelige datasettene, laget for å hjelpe forskningen på spørsmål og svar med åpent domene. Kompilert fra Bing-søkemotorsøkeloggene, kommer den med spørsmål-og-svar-par. Den har mer enn 3000 spørsmål og 1500 merkede svarsetninger.
-
Datasett for juridiske saksrapporter (Link)
Legal Case Reports datasettet har en samling på 4000 juridiske saker og kan brukes til å trene for automatisk tekstoppsummering og siteringsanalyse. Hvert dokument, slagord, sitatklasser, sitatslag og mer brukes.
-
Jeopardy (Link)
Jeopardy-datasettet er en samling av mer enn 200,000 XNUMX spørsmål i det populære quiz-TV-programmet samlet av en Reddit-bruker. Hvert datapunkt er klassifisert etter utsendelsesdato, episodenummer, verdi, runde og spørsmål/svar.
-
20 nyhetsgrupper (Link)
En samling på 20,000 20 dokumenter omfatter XNUMX nyhetsgrupper og emner, som beskriver emner fra religion til populær sport.
-
Reuters nyhetsdatasett (Link)
Dette datasettet ble først vist i 1987, og har blitt merket, indeksert og kompilert for maskinlæringsformål.
-
arxiv (Link)
Dette betydelige datasettet på 270 GB inkluderer den fullstendige teksten til alle arXiv-forskningsartikler.
-
Europaparlamentets saksbehandling Parallell Corpus (Link)
Setningspar fra parlamentsbehandlingen inkluderer oppføringer fra 21 europeiske språk, med noen mindre vanlige språk for maskinlæringskorpus.
-
Milliarder Word-referanse (Link)
Avledet fra WMT 2011 News Crawl, omfatter dette språkmodelleringsdatasettet nesten én milliard ord for å teste innovative språkmodelleringsteknikker.
Lyd tale
-
Talt Wikipedia Corpora (Link)
-
2000 HUB5 engelsk (Link)
2000 HUB5 engelsk datasett har 40 telefonsamtaler transkripsjoner på engelsk. Dataene er levert av National Institute of Standards and Technology, og hovedfokuset er på å gjenkjenne samtaletale og konvertere tale til tekst.
-
LibriSpeech (Link)
LibriSpeech-datasettet er en samling på nesten 1000 timer med engelsk tale tatt og riktig segmentert etter emner i kapitler fra lydbøker, noe som gjør det til et perfekt verktøy for naturlig språkbehandling.
-
Gratis talte sifferdatasett (Link)
Dette NLP-datasettet inneholder mer enn 1,500 opptak av talte sifre på engelsk.
-
M-AI Labs taledatasett (Link)
Datasettet tilbyr nesten 1,000 timer med lyd med transkripsjoner, som omfatter flere språk og kategorisert etter mannlige, kvinnelige og blandede stemmer.
-
Støyende taledatabase (Lenke)
Dette datasettet inneholder parallelle støyende og rene taleopptak, beregnet for utvikling av taleforbedringsprogramvare, men også fordelaktig for opplæring i tale under utfordrende forhold.
Anmeldelser
-
Yelp-anmeldelser (Link)
Yelp-datasettet har en enorm samling på rundt 8.5 millioner anmeldelser av 160,000 200,000 pluss bedrifter, deres anmeldelser og brukerdata. Omtalene kan brukes til å trene modellene dine på sentimentanalyse. Dessuten har dette datasettet også mer enn XNUMX XNUMX bilder som dekker åtte storbysteder.
-
IMDB-anmeldelser (Link)
IMDB-anmeldelser er blant de mest populære datasettene som inneholder rollebesetningsinformasjon, rangeringer, beskrivelse og sjanger for mer enn 50 tusen filmer. Dette datasettet kan brukes til å teste og trene maskinlæringsmodellene dine.
-
Amazon anmeldelser og vurderingsdatasett (Link)
Amazon vurderings- og vurderingsdatasett inneholder en verdifull samling metadata og anmeldelser av forskjellige produkter fra Amazon samlet inn fra 1996 til 2014 – omtrent 142.8 millioner poster. Metadataene inkluderer pris, produktbeskrivelse, merke, kategori med mer, mens anmeldelsene har tekstkvalitet, tekstens nytteverdi, vurderinger med mer.
Spørsmål og svar
-
Stanford Question and Answer Dataset (SQuAD) (Link)
Dette leseforståelsesdatasettet har 100,000 50,000 svarbare spørsmål og XNUMX XNUMX ubesvarbare spørsmål, alle laget av Wikipedia-publikumsarbeidere.
-
Naturlige spørsmål (Link)
Dette opplæringssettet har over 300,000 7,800 treningseksempler, 7,800 utviklingseksempler og XNUMX testeksempler, hver med et Google-søk og en matchende Wikipedia-side.
-
TriviaQA (Link)
Dette utfordrende spørsmålssettet har 950,000 XNUMX QA-par, inkludert både menneskeverifiserte og maskingenererte delsett.
-
CLEVR (Compositional Language and Elementary Visual Reasoning) (Link)
Dette visuelle spørsmålssvarssettet inneholder 3D-gjengitte objekter og tusenvis av spørsmål med detaljer om den visuelle scenen.
Så, hvilket datasett har du valgt å trene maskinlæringsmodellen din på?
Mens vi går, vil vi etterlate deg med en pro-tips.
Sørg for å gå grundig gjennom README-filen før du velger et NLP-datasett for dine behov. Datasettet vil inneholde all nødvendig informasjon du måtte trenge, for eksempel datasettets innhold, de ulike parameterne som dataene er kategorisert på, og sannsynlige brukstilfeller av datasettet.
Uansett hvilke modeller du bygger, er det en spennende mulighet til å integrere maskinene våre tettere og mer iboende med livene våre. Med NLP økes mulighetene for forretninger, filmer, talegjenkjenning, økonomi og mer mangfoldig.