Crowd Workers for datainnsamling

Crowd Workers for datainnsamling – en uunnværlig del av etisk AI

I vår innsats for å bygge robuste og objektive AI-løsninger, er det relevant at vi fokuserer på å trene modellene på et objektivt, dynamisk og representativt utvalg av data. Datainnsamlingsprosessen vår er ekstremt viktig for å utvikle troverdige AI-løsninger. I denne forbindelse, samling AI-treningsdata gjennom publikumsarbeidere blir et kritisk aspekt ved datainnsamlingsstrategien.

I denne artikkelen, la oss utforske rollen til publikumsarbeidere, dens innvirkning på utvikling av AI læringsalgoritmer og ML-modeller, og behovet og fordelene det gir hele prosessen. 

Hvorfor kreves det publikumsarbeidere for å bygge AI-modeller?

Som mennesker genererer vi tonnevis med data, men likevel er bare en brøkdel av disse genererte og innsamlede dataene av verdi. På grunn av mangelen på standarder for databenchmarking, er de fleste dataene som samles inn enten partiske, fulle av kvalitetsproblemer eller ikke representative for miljøet. Siden mer og mer maskinlæring og dyplæringsmodeller utvikles som trives med enorme mengder data, blir behovet for bedre, nyere og varierte datasett stadig mer følt.

Det er her publikumsarbeidere kommer inn i bildet.

Crowd-sourcing-data bygger et datasett med deltagelse av store grupper mennesker. Publikumsarbeidere tilfører menneskelig intelligens til kunstig intelligens.

Crowd-sourcing-plattformer gi datainnsamling og merknader mikrooppgaver til en stor og variert gruppe mennesker. Crowdsourcing gir bedrifter tilgang til en massiv, dynamisk, kostnadseffektiv og skalerbar arbeidsstyrke.

Den mest populære crowd-sourcing-plattformen – Amazon Mechanical Turk, var i stand til å hente 11 tusen menneske-til-menneske-dialoger innen 15 timer, og det betalte arbeiderne $0.35 for hver vellykket dialog. Crowd-arbeidere blir engasjert for et så lavt beløp, og kaster lys over viktigheten av å bygge etiske standarder for datainnhenting.

Teoretisk sett høres det ut som en smart plan, men det er ikke en enkel strategi å gjennomføre. Anonymiteten til publikumsarbeiderne har gitt opphav til problemer med lav lønn, ignorering av arbeidstakerrettigheter og dårlig kvalitet på arbeid som påvirker ytelsen til AI-modellen. 

Fordeler med å ha publikumsarbeidere til å hente data

Ved å engasjere en mangfoldig gruppe medarbeidere kan AI-baserte løsningsutviklere distribuere mikrooppgaver og samle varierte og utbredte observasjoner raskt og til en relativt lav kostnad.

Noen av de fremtredende fordelene ved å ansette publikumsarbeidere til AI-prosjekter er

Datainnsamling fordeler gjennom crowd workers

Raskere tid til markedsføring: I følge forskning fra Cognilytica er nesten 80 % av kunstig intelligens prosjekttid brukes på datainnsamlingsaktiviteter som datarensing, merking og aggregering. Kun 20 % av tiden går med til utvikling og opplæring. De tradisjonelle barrierene for å generere data er eliminert ettersom et stort antall bidragsytere kan rekrutteres i løpet av kort tid. 

Kostnadseffektiv løsning: Crowd-sourcet datainnsamling reduserer tiden og energien som brukes på trening, rekruttering og å bringe dem om bord. Dette eliminerer kostnadene, tiden og ressursene som kreves siden arbeidsstyrken er ansatt på en betal-per-oppgave-metode. 

Øker mangfoldet i datasettet: Datamangfold er avgjørende for hele opplæringen i AI-løsninger. For at en modell skal gi objektive resultater, må den trenes på et mangfoldig datasett. Med crowd-sourcing av data er det mulig å generere forskjellige (geografiske, språk, dialekter) datasett med liten innsats og kostnad.

Forbedrer skalerbarhet: Når du rekrutterer pålitelige publikumsarbeidere, kan du sikre høykvalitets datainnsamling som kan skaleres basert på dine prosjektbehov.

In-house vs. crowdsourcing – Hvem kommer ut som vinneren?

Interne dataCrowdsourced data
Datanøyaktighet og konsistens kan garanteres.Datakvalitet, nøyaktighet og konsistens kan opprettholdes hvis pålitelige crowd-sourcing-plattformer med standard QA-mål benyttes
Intern datainnhenting er ikke alltid en praktisk avgjørelse, da ditt interne team kanskje ikke oppfyller prosjektkravene.Datamangfold kan sikres ettersom det er mulig å rekruttere en heterogen gruppe medarbeidere basert på prosjektets behov.
Dyrt å rekruttere og lære opp arbeidere til prosjektets behov.Kostnadseffektiv løsning på datainnsamling ettersom det er mulig å rekruttere, lære opp og ombord arbeidere med mindre investeringer.
Tiden til markedet er høy da intern datainnsamling tar mye tid.Tiden til markedsføring er betydelig kortere ettersom mange bidrag kommer raskt.
En liten gruppe interne bidragsytere og merkevareEn stor og mangfoldig gruppe bidragsytere og datamerkere
Datakonfidensialitet er svært høy med et internt team.Datakonfidensialitet er vanskelig å opprettholde når du arbeider med store mengder arbeidere over hele verden.
Lettere å spore, trene og evaluere datainnsamlereUtfordrende å spore og trene datainnsamlere.

Bygge bro mellom crowdsource-arbeidere og rekvirenten.

Bygge bro over gapet mellom crowdsource-arbeidere og rekvirenten Det er et stort behov for å bygge bro over gapet mellom publikumsarbeidere og forespørsler, ikke bare i lønnsområdet.

Det er en åpenbar mangel på informasjon fra rekvirentens side fordi arbeiderne kun får informasjon om den spesifikke oppgaven. For eksempel, selv om arbeidere får mikrooppgaver som å spille inn dialoger på sin egen dialekt, får de sjelden kontekst. De har ikke den nødvendige informasjonen om hvorfor de gjør det de gjør og hvordan de best kan gjøre det. Denne mangelen på informasjon påvirker kvaliteten på mengden hentet arbeid.

For et menneske gir det å ha hele konteksten klarhet og hensikt til arbeidet deres.

Legg til denne blandingen en annen dimensjon ved NDA – taushetserklæringen som begrenser mengden informasjon en publikumsarbeider gis. Fra et publikumsarbeiderperspektiv viser denne tilbaketrekkingen av informasjon mangel på tillit og redusert betydning for arbeidet deres.

Når man ser på den samme situasjonen fra den andre enden av spekteret, er det mangel på åpenhet fra arbeiderens side. Anmoderen forstår ikke helt arbeideren som har fått i oppdrag å utføre arbeidet. Noen prosjekter kan kreve en bestemt type arbeider; men i de fleste prosjekter er det tvetydighet. De bakken sannhet er dette kan komplisere evaluering, tilbakemeldinger og trening langs linjen.

For å motvirke disse vanskelighetene, er det viktig å jobbe med datainnsamlingseksperter med erfaring med å levere varierte, kuraterte og godt representerte data fra et bredt utvalg av bidragsytere.

Å velge Shaip som din datapartner kan ha flere fordeler. Vi fokuserer på mangfold og representative fordelinger av data. Våre erfarne og dedikerte medarbeidere forstår tvangene til hvert prosjekt og utvikler datasett som kan trene opp robuste AI-baserte løsninger på kort tid.

[Les også: AI Training Data Starter Guide: Definisjon, Eksempel, Datasett]

Sosial Share