Hvis du spurte en Gen AI-modell om å skrive tekster til en sang som Beatles ville ha gjort, og hvis den gjorde en imponerende jobb, er det en grunn til det. Eller, hvis du spurte en modell om å skrive prosa i stilen til favorittforfatteren din og den replikerte stilen nøyaktig, er det en grunn til det.
Selv ganske enkelt, du er i et annet land, og når du vil oversette navnet på en interessant matbit du finner på en supermarkedsgang, oppdager smarttelefonen etiketter og oversetter teksten sømløst.
AI står i sentrum for alle slike muligheter, og dette er først og fremst fordi AI-modeller ville blitt trent på enorme mengder slike data – i vårt tilfelle hundrevis av The Beatles-sanger og sannsynligvis bøker fra din favorittforfatter.
Med fremveksten av Generative AI er alle musikere, forfattere, artister eller alt sammen. Gen AI-modeller skaper skreddersydde kunstverk på sekunder avhengig av brukeroppfordringer. De kan skape Van Gogh-isque kunstverk og til og med få Al Pacino til å lese opp vilkårene for tjenester uten at han er der.
Fascinasjon til side, det viktige aspektet her er etikk. Er det rettferdig at slike kreative verk har blitt brukt til å trene AI-modeller, som gradvis prøver å erstatte artister? Ble samtykke innhentet fra eiere av slike åndsverk? Ble de kompensert rettferdig?
Velkommen til 2024: The Year of Data Wars
I løpet av de siste årene har data ytterligere blitt en magnet for å tiltrekke seg oppmerksomheten til firmaer for å trene sine Gen AI-modeller. Som et spedbarn er AI-modeller naive. De må læres opp og deretter trenes. Det er derfor selskaper trenger milliarder, om ikke millioner, med data for å kunstig trene modeller til å etterligne mennesker.
For eksempel ble GPT-3 trent på milliarder (hundrevis av dem) av tokens, som løst kan oversettes til ord. Kilder avslører imidlertid at billioner av slike tokens ble brukt til å trene de nyere modellene.
Med slike enorme mengder opplæringsdatasett som kreves, hvor går store teknologibedrifter?
Akutt mangel på treningsdata
Ambisjon og volum går hånd i hånd. Ettersom bedrifter skalerer opp modellene sine og optimaliserer dem, krever de enda mer opplæringsdata. Dette kan stamme fra krav om å avsløre etterfølgende modeller av GPT eller ganske enkelt levere forbedrede og presise resultater.
Uansett tilfelle er det uunngåelig å kreve rikelig med treningsdata.
Det er her bedrifter står overfor sin første veisperring. For å si det enkelt, internett begynner å bli for lite for AI-modeller å trene på. Det betyr at selskaper går tom for eksisterende datasett for å mate og trene modellene sine.
Denne uttømmende ressursen skremmer interessenter og teknologientusiaster ettersom den potensielt kan begrense utviklingen og utviklingen av AI-modeller, som for det meste er nært forbundet med hvordan merker posisjonerer produktene sine og hvordan noen plagende bekymringer i verden oppfattes å bli taklet med AI-drevet løsninger.
Samtidig er det også håp i form av syntetiske data eller digital innavl som vi kaller det. I lekmannstermer er syntetiske data treningsdataene generert av AI, som igjen brukes til å trene modeller.
Selv om det høres lovende ut, tror tekniske eksperter at syntesen av slike treningsdata vil føre til det som kalles Habsburg AI. Dette er en stor bekymring for bedrifter ettersom slike innavlede datasett kan ha faktafeil, skjevheter eller bare være tull, noe som kan ha negativ innvirkning på resultater fra AI-modeller.
Betrakt dette som et spill med kinesisk hvisking, men den eneste vrien er at det første ordet som blir videreført kan også være meningsløst.
Kappløpet for å skaffe AI-treningsdata
Lisensering er en ideell måte å hente treningsdata på. Selv om de er potente, er biblioteker og depoter endelige kilder. Det betyr at de ikke kan dekke volumkravene til store modeller. En interessant statistikk forteller at vi kan gå tom for data av høy kvalitet for å trene modeller innen år 2026, og veier tilgjengeligheten av data på linje med andre fysiske ressurser i den virkelige verden.
Et av de største fotolagrene – Shutterstock har 300 millioner bilder. Selv om dette er nok til å komme i gang med trening, vil testing, validering og optimalisering trenge rikelig med data igjen.
Det er imidlertid andre kilder tilgjengelig. Den eneste fangsten her er at de er fargekodet i grått. Vi snakker om de offentlig tilgjengelige dataene fra internett. Her er noen spennende fakta:
- Over 7.5 millioner blogginnlegg blir tatt live hver eneste dag
- Det er over 5.4 milliarder mennesker på sosiale medieplattformer som Instagram, X, Snapchat, TikTok og mer.
- Over 1.8 milliarder nettsteder finnes på internett.
- Over 3.7 millioner videoer lastes opp på YouTube alene hver eneste dag.
Dessuten deler folk offentlig tekster, videoer, bilder og til og med fagkompetanse gjennom podcaster som bare er lyd.
Dette er eksplisitt tilgjengelige deler av innhold.
Så å bruke dem til å trene AI-modeller må være rettferdig, ikke sant?
Dette er gråsonen vi nevnte tidligere. Det er ingen hard og rask mening om dette spørsmålet, da teknologiselskaper med tilgang til så store mengder data kommer opp med nye verktøy og endringer i retningslinjene for å imøtekomme dette behovet.
Noen verktøy gjør lyd fra YouTube-videoer om til tekst og bruker dem deretter som tokens for treningsformål. Bedrifter reviderer personvernregler og går til og med i den grad de bruker offentlige data for å trene modeller med en forhåndsbestemt intensjon om å møte søksmål.
Tellermekanismer
Samtidig utvikler bedrifter også det som kalles syntetiske data, der AI-modeller genererer tekster som igjen kan brukes til å trene modellene som en loop.
På den annen side, for å motvirke skraping av data og hindre bedrifter i å utnytte juridiske smutthull, implementerer nettsteder plugins og koder for å redusere data-scaping-roboter.
Hva er den ultimate løsningen?
Implikasjonen av AI for å løse problemer i den virkelige verden har alltid vært støttet av edle intensjoner. Så hvorfor må innkjøpsdatasett for å trene opp slike modeller stole på grå modeller?
Etter hvert som samtaler og debatter om ansvarlig, etisk og ansvarlig AI får fremtredende og styrke, er det på bedrifter i alle skalaer å bytte til alternative kilder som har white-hat-teknikker for å levere treningsdata.
Dette er hvor Shaip utmerker seg på. For å forstå de rådende bekymringene rundt datainnhenting, har Shaip alltid tatt til orde for etiske teknikker og har konsekvent praktisert raffinerte og optimaliserte metoder for å samle inn og kompilere data fra forskjellige kilder.
Sourcing-metoder for White Hat-datasett
Vårt proprietære datainnsamlingsverktøy har mennesker i sentrum for dataidentifikasjon og leveringssykluser. Vi forstår sensitiviteten til brukstilfellene våre klienter jobber med og hvilken innvirkning datasettene våre vil ha på resultatene av modellene deres. For eksempel har helsedatasett sin følsomhet sammenlignet med datasett for datasyn for autonome biler.
Det er nettopp derfor vår modus operandi innebærer grundige kvalitetskontroller og teknikker for å identifisere og kompilere relevante datasett. Dette har tillatt oss å styrke bedrifter med eksklusive Gen AI-treningsdatasett på tvers av flere formater som bilder, videoer, lyd, tekst og flere nisjekrav.
vår filosofi
Vi opererer etter kjernefilosofier som samtykke, personvern og rettferdighet ved innsamling av datasett. Vår tilnærming sikrer også mangfold i data, slik at det ikke er noen introduksjon av ubevisst skjevhet.
Når AI-riket gjør seg klar for begynnelsen av en ny æra preget av rettferdig praksis, har vi i Shaip til hensikt å være flaggbærere og forløpere til slike ideologier. Hvis utvilsomt rettferdige og kvalitetsdatasett er det du ser etter for å trene AI-modellene dine, ta kontakt med oss i dag.