Definisjon
Syntetiske data er kunstig generert informasjon som etterligner data fra den virkelige verden. De kan opprettes ved hjelp av simuleringer, GAN-er eller andre generative metoder.
Formål
Hensikten er å utvide eller erstatte reelle data når de er knappe, sensitive eller dyre å samle inn.
Viktigheten
- Beskytter personvernet ved å redusere avhengigheten av personopplysninger.
- Muliggjør trening for sjeldne eller ekstreme tilfeller.
- Kan mangle den fulle kompleksiteten til data fra den virkelige verden.
- I økende grad brukt i sikkerhetskritisk AI.
Slik fungerer det
- Definer dataegenskapene som skal replikeres.
- Bruk simulering eller generative modeller for å lage data.
- Valider syntetiske data mot reelle fordelinger.
- Bruk syntetiske data i treningspipelines.
- Overvåk hull i realismen.
Eksempler (den virkelige verden)
- Waymo: bruker syntetiske kjørescener for autonom trening.
- NVIDIA Omniverse: genererer syntetiske 3D-data for robotikk.
- Helsevesen: syntetiske pasientdata for forskning.
Referanser / Videre lesning
- NIST-spesialpublikasjon om syntetiske data.
- Goncalves et al. «Generering og evaluering av syntetiske data.» ACM Computing Surveys.
- Syntetisk datahvelv (MIT).
- Hva er syntetiske data i AI


