Påvirkning av mangfold på treningsdata

Diverse AI-treningsdata for inkludering og eliminering av skjevheter

Kunstig intelligens og Big Data har potensialet til å finne løsninger på globale problemer samtidig som de prioriterer lokale problemer og transformerer verden på mange dyptgripende måter. AI bringer løsninger til alle – og i alle omgivelser, fra hjem til arbeidsplasser. AI datamaskiner, med Maskinlæring trening, kan simulere intelligent oppførsel og samtaler på en automatisert, men personlig måte.

Likevel står AI overfor et inkluderingsproblem og er ofte partisk. Heldigvis fokuserer på kunstig intelligens etikk kan innlede nyere muligheter når det gjelder diversifisering og inkludering ved å eliminere ubevisst skjevhet gjennom ulike treningsdata.

Viktigheten av mangfold i AI-treningsdata

Ai Treningsdatamangfold Mangfold og kvalitet på treningsdata er relatert siden det ene påvirker det andre og påvirker resultatet av AI-løsningen. Suksessen til AI-løsningen avhenger av mangfoldige data det trenes på. Datamangfold forhindrer AI i å overtilpasse – noe som betyr at modellen bare presterer eller lærer av dataene som brukes til å trene. Med overfitting kan ikke AI-modellen gi resultater når den testes på data som ikke brukes i trening.

Den nåværende tilstanden til AI-trening dato

Ulikheten eller mangelen på mangfold i data vil føre til urettferdige, uetiske og ikke-inkluderende AI-løsninger som kan forsterke diskriminering. Men hvordan og hvorfor er mangfold i data relatert til AI-løsninger?

Ulik representasjon av alle klasser fører til feilidentifikasjon av ansikter – et viktig eksempel er Google Foto som klassifiserte et svart par som «gorillaer». Og Meta spør en bruker som ser på en video av svarte menn om brukeren ønsker å "fortsette å se videoer av primater."

For eksempel kan unøyaktig eller feil klassifisering av etniske eller raseminoriteter, spesielt i chatbots, føre til fordommer i AI-treningssystemer. I følge rapporten fra 2019 vedr Diskriminerende systemer – kjønn, rase, makt i AI, mer enn 80 % av lærerne i AI er menn; kvinnelige AI-forskere på FB utgjør bare 15 % og 10 % på Google.

Effekten av ulike treningsdata på AI-ytelse

Påvirkning av mangfold på treningsdata Å utelate spesifikke grupper og samfunn fra datarepresentasjon kan føre til skjeve algoritmer.

Databias blir ofte ved et uhell introdusert i datasystemene – ved å undersample visse raser eller grupper. Når ansiktsgjenkjenningssystemer trenes på forskjellige ansikter, hjelper det modellen med å identifisere spesifikke funksjoner, for eksempel plasseringen av ansiktsorganer og fargevariasjoner.

Et annet resultat av å ha en ubalansert frekvens av etiketter er at systemet kan vurdere en minoritet som en anomali når det settes under trykk for å produsere en utgang innen kort tid.

La oss diskutere AI Training Data-kravet i dag.

Oppnå mangfold i AI-treningsdata

På baksiden er det også en utfordring å generere et mangfoldig datasett. Den rene mangelen på data om enkelte klasser kan føre til underrepresentasjon. Det kan dempes ved å gjøre AI-utviklerteamene mer mangfoldige med hensyn til ferdigheter, etnisitet, rase, kjønn, disiplin og mer. Dessuten er den ideelle måten å løse problemer med datamangfold i AI å konfrontere det fra begynnelsen i stedet for å prøve å fikse det som er gjort – å tilføre mangfold på datainnsamlings- og kurasjonsstadiet.

Uavhengig av hypen rundt AI, avhenger det fortsatt av dataene som samles inn, velges og trenes av mennesker. Den medfødte skjevheten hos mennesker vil reflektere i dataene som samles inn av dem, og denne ubevisste skjevheten kryper også inn i ML-modellene. 

Trinn for å samle inn og kurere ulike treningsdata

Trening Datamangfold Inkludering

Datamangfold kan oppnås ved:

  • Legg nøye til flere data fra underrepresenterte klasser og eksponer modellene dine for varierte datapunkter. 
  • Ved å samle inn data fra ulike datakilder. 
  • Ved å utvide data eller kunstig manipulere datasett for å øke/inkludere nye datapunkter som er tydelig forskjellige fra de opprinnelige datapunktene. 
  • Når du ansetter søkere til AI-utviklingsprosessen, fjern all jobb-irrelevant informasjon fra søknaden. 
  • Forbedre åpenhet og ansvarlighet ved å forbedre dokumentasjonen av utvikling og evaluering av modeller. 
  • Innføre regelverk for å bygge mangfold og inkludering i AI systemer fra grasrotnivå. Ulike myndigheter har utviklet retningslinjer for å sikre mangfold og redusere AI-bias som kan gi urettferdige resultater. 

[ Les også: Lær mer om AI Training Data Collection Process ]

konklusjonen

For tiden er bare noen få store teknologiselskaper og læringssentre utelukkende involvert i å utvikle AI-løsninger. Disse eliteområdene er gjennomsyret av ekskludering, diskriminering og skjevhet. Imidlertid er dette områdene der AI utvikles, og logikken bak disse avanserte AI-systemene er fylt med den samme skjevheten, diskrimineringen og ekskluderingen som bæres av de underrepresenterte gruppene. 

Mens man diskuterer mangfold og ikke-diskriminering, er det viktig å stille spørsmål ved menneskene det gagner og de det skader. Vi bør også se på hvem det setter på en ulempe – ved å tvinge frem ideen om en "normal" person, kan AI potensielt sette "andre" i fare. 

Å diskutere mangfold i AI-data uten å anerkjenne maktforhold, rettferdighet og rettferdighet vil ikke vise det større bildet. For å fullt ut forstå omfanget av mangfold i AI-treningsdata og hvordan mennesker og AI sammen kan dempe denne krisen, nå ut til ingeniørene i Shaip. Vi har forskjellige AI-ingeniører som kan levere dynamiske og mangfoldige data for AI-løsningene dine. 

Sosial Share