AI treningsdata

Hvor mye er det optimale volumet med treningsdata du trenger for et AI-prosjekt?

En fungerende AI-modell er bygget på solide, pålitelige og dynamiske datasett. Uten rik og detaljert AI treningsdata for hånden, er det absolutt ikke mulig å bygge en verdifull og vellykket AI-løsning. Vi vet at prosjektets kompleksitet tilsier, og bestemmer den nødvendige kvaliteten på data. Men vi er ikke helt sikre på hvor mye treningsdata vi trenger for å bygge den tilpassede modellen.

Det er ikke noe enkelt svar på hva riktig mengde treningsdata for maskinlæring trengs. I stedet for å jobbe med en ballpark-figur, tror vi en rekke metoder kan gi deg en nøyaktig ide om datastørrelsen du trenger. Men før det, la oss forstå hvorfor treningsdata er avgjørende for suksessen til AI-prosjektet ditt.

Betydningen av treningsdata

I en tale på Wall Street Journals Future of Everything-festival sa Arvind Krishna, administrerende direktør IBM, at nesten 80 % av arbeidet i et AI-prosjekt handler om å samle inn, rense og forberede data.' Og han var også av den oppfatning at bedrifter gir opp sine AI-satsinger fordi de ikke kan holde tritt med kostnadene, arbeidet og tiden som kreves for å samle verdifulle opplæringsdata.

Fastsettelse av data prøve størrelse hjelper til med å designe løsningen. Det hjelper også nøyaktig å anslå kostnadene, tiden og ferdighetene som kreves for prosjektet.

Hvis unøyaktige eller upålitelige datasett brukes til å trene ML-modeller, vil den resulterende applikasjonen ikke gi gode spådommer.

7 faktorer som bestemmer volumet av treningsdata som kreves

Selv om datakravene når det gjelder volum for å trene AI-modeller er helt subjektive og bør tas fra sak til sak, er det noen få universelle faktorer som påvirker objektivt. La oss se på de vanligste.

Maskinlæringsmodell

Treningsdatavolumet avhenger av om modellens trening går på overvåket eller uovervåket læring. Mens førstnevnte krever mer treningsdata, gjør ikke sistnevnte det.

Veiledet læring

Dette innebærer bruk av merkede data, som igjen tilfører kompleksitet til opplæringen. Oppgaver som bildeklassifisering eller gruppering krever etiketter eller attribusjoner for maskiner å dechiffrere og differensiere, noe som fører til etterspørselen etter mer data.

Uovervåket læring

Bruken av merkede data er ikke et mandat i uovervåket læring, og reduserer dermed behovet for enorme mengder data relativt sett. Når det er sagt, vil datavolumet fortsatt være høyt for modeller for å oppdage mønstre og identifisere medfødte strukturer og korrelere dem.

Variabilitet og mangfold

For at en modell skal være så rettferdig og objektiv som mulig, bør medfødt skjevhet fjernes fullstendig. Dette betyr bare at det kreves flere volumer av forskjellige datasett. Dette sikrer at en modell lærer mengder av sannsynligheter som eksisterer, slik at den kan holde seg unna å generere ensidige svar.

Dataforsterkning og overføringslæring

Innhenting av kvalitetsdata for ulike brukstilfeller på tvers av bransjer og domener er ikke alltid sømløst. I sensitive sektorer som helsevesen eller finans er kvalitetsdata knapt tilgjengelige. I slike tilfeller blir dataforsterkning som involverer bruk av syntetiserte data den eneste veien videre i treningsmodeller.

Eksperimentering og validering

Iterativ trening er balansen, der volumet av treningsdata som kreves, beregnes etter konsekvent eksperimentering og validering av resultater. Gjennom gjentatt testing og overvåking

modellytelse, kan interessenter måle om mer treningsdata er nødvendig for responsoptimalisering.

Hvordan redusere volumkravene til treningsdata

Uansett om det er budsjettbegrensningen, deadline for å gå til markedet eller manglende tilgjengelighet av ulike data, er det noen alternativer bedrifter kan bruke for å redusere avhengigheten av store mengder opplæringsdata.

Dataforsterkning

hvor nye data genereres eller syntetiseres fra eksisterende datasett er ideell for bruk som treningsdata. Disse dataene stammer fra og etterligner overordnede data, som er 100 % ekte data.

Overfør læring

Dette innebærer å endre parametrene til en eksisterende modell for å utføre og utføre en ny oppgave. For eksempel, hvis modellen din har lært å identifisere epler, kan du bruke den samme modellen og endre dens eksisterende treningsparametere for å identifisere appelsiner også.

Forhåndsutdannede modeller

Hvor eksisterende kunnskap kan brukes som visdom for ditt nye prosjekt. Dette kan være ResNet for oppgaver knyttet til bildeidentifikasjon eller BERT for NLP-brukstilfeller.

Eksempler fra den virkelige verden på maskinlæringsprosjekter med minimale datasett

Selv om det kan høres umulig ut at noen ambisiøse maskinlæringsprosjekter kan utføres med minimale råvarer, er noen tilfeller forbløffende sanne. Forbered deg på å bli overrasket.

Kaggle-rapportHelsevesenKlinisk onkologi
En Kaggle-undersøkelse viser at over 70 % av maskinlæringsprosjektene ble fullført med mindre enn 10,000 XNUMX prøver.Med bare 500 bilder trente et MIT-team en modell for å oppdage diabetisk nevropati i medisinske bilder fra øyeskanninger.For å fortsette eksemplet med helsetjenester, klarte et team fra Stanford University å utvikle en modell for å oppdage hudkreft med bare 1000 bilder.

Gjør utdannede gjetninger

Estimerer behovet for opplæringsdata

Det er ikke noe magisk tall angående minimumsmengde data som kreves, men det er noen få tommelfingerregler du kan bruke for å komme frem til et rasjonelt tall.

Regelen om 10

Som en tommelfingerregel, for å utvikle en effektiv AI-modell, bør antallet opplæringsdatasett være ti ganger mer enn hver modellparameter, også kalt frihetsgrader. '10' ganger-reglene tar sikte på å begrense variabiliteten og øke mangfoldet av data. Som sådan kan denne tommelfingerregelen hjelpe deg med å komme i gang med prosjektet ved å gi deg en grunnleggende idé om den nødvendige mengden datasett.  

Dyp læring

Dyplæringsmetoder bidrar til å utvikle høykvalitetsmodeller hvis mer data leveres til systemet. Det er generelt akseptert at det å ha 5000 merkede bilder per kategori bør være nok til å lage en dyp læringsalgoritme som kan fungere på nivå med mennesker. For å utvikle eksepsjonelt komplekse modeller kreves det minst 10 millioner merkede varer.

Datamaskin syn

Hvis du bruker dyp læring for bildeklassifisering, er det enighet om at et datasett med 1000 merkede bilder for hver klasse er et rimelig antall. 

Læringskurver

Læringskurver brukes til å demonstrere maskinlæringsalgoritmens ytelse mot datamengde. Ved å ha modellferdigheten på Y-aksen og opplæringsdatasettet på X-aksen, er det mulig å forstå hvordan størrelsen på dataene påvirker resultatet av prosjektet.

Ulempene ved å ha for lite data 

Du tror kanskje det er ganske åpenbart at et prosjekt trenger store mengder data, men noen ganger klarer til og med store virksomheter med tilgang til strukturerte data ikke å skaffe det. Trening på begrensede eller smale datamengder kan stoppe maskinlæringsmodeller fra å oppnå sitt fulle potensial og øke risikoen for å gi feil spådommer.

Selv om det ikke er noen gylden regel og grov generalisering vanligvis gjøres for å forutse behov for opplæringsdata, er det alltid bedre å ha store datasett enn å lide av begrensninger. Databegrensningen som modellen din lider av, vil være begrensningene til prosjektet ditt.  

Hva du skal gjøre hvis du trenger flere datasett

Teknikker/kilder for datainnsamling

Selv om alle ønsker å ha tilgang til store datasett, er det lettere sagt enn gjort. Å få tilgang til store mengder datasett av kvalitet og mangfold er avgjørende for prosjektets suksess. Her gir vi deg strategiske steg for å gjøre datainnsamlingen mye enklere.

Åpne datasett 

Åpne datasett anses vanligvis som en "god kilde" til gratis data. Selv om dette kan være sant, er ikke åpne datasett det prosjektet trenger i de fleste tilfeller. Det er mange steder data kan skaffes fra, for eksempel offentlige kilder, EU Open dataportaler, Google Public data explorers og mer. Det er imidlertid mange ulemper ved å bruke åpne datasett for komplekse prosjekter.

Når du bruker slike datasett risikerer du trening og testing modellen din på feil eller manglende data. Datainnsamlingsmetodene er generelt ikke kjent, noe som kan påvirke prosjektets utfall. Personvern, samtykke og identitetstyveri er betydelige ulemper ved å bruke åpne datakilder.

Utvidet datasett 

Når du har noen mengden treningsdata men ikke nok til å oppfylle alle prosjektkravene dine, du må bruke teknikker for dataforsterkning. Det tilgjengelige datasettet brukes på nytt for å møte behovene til modellen.

Dataprøvene vil gjennomgå ulike transformasjoner som gjør datasettet rikt, variert og dynamisk. Et enkelt eksempel på dataforsterkning kan sees når du arbeider med bilder. Et bilde kan utvides på mange måter – det kan kuttes, endres størrelse, speilvendes, gjøres om til forskjellige vinkler og fargeinnstillinger kan endres.

Syntetiske data

Når det ikke er nok data, kan vi henvende oss til syntetiske datageneratorer. Syntetiske data kommer godt med når det gjelder overføringslæring, da modellen først kan trenes på syntetiske data og senere på datasettet i den virkelige verden. For eksempel kan et AI-basert selvkjørende kjøretøy først trenes til å gjenkjenne og analysere objekter i datasyn videospill.

Syntetiske data er fordelaktige når det er mangel på det virkelige liv data å trene og test din trente modeller. Dessuten brukes den også når det gjelder personvern og datasensitivitet.

Egendefinert datainnsamling 

Egendefinert datainnsamling er kanskje ideell for å generere datasett når andre skjemaer ikke gir de nødvendige resultatene. Datasett av høy kvalitet kan genereres ved hjelp av nettskrapeverktøy, sensorer, kameraer og andre verktøy. Når du trenger skreddersydde datasett som forbedrer ytelsen til modellene dine, kan det være riktig å skaffe tilpassede datasett. Flere tredjeparts tjenesteleverandører tilbyr sin ekspertise.

For å utvikle AI-løsninger med høy ytelse, må modellene trenes på pålitelige datasett av god kvalitet. Det er imidlertid ikke lett å få tak i rike og detaljerte datasett som påvirker resultatene positivt. Men når du samarbeider med pålitelige dataleverandører, kan du bygge en kraftig AI-modell med et sterkt datagrunnlag.

Har du et flott prosjekt i tankene, men venter på skreddersydde datasett for å trene modellene dine eller sliter med å få det riktige resultatet av prosjektet ditt? Vi tilbyr omfattende opplæringsdatasett for en rekke prosjektbehov. Utnytt potensialet til Shaip ved å snakke med en av våre data forskere i dag og forstå hvordan vi har levert høyytende, kvalitetsdatasett for kunder tidligere.

Sosial Share