En kasusstudie om ansiktsgjenkjenningsmodell
Anti-spoofing-videodatasett for AI-modeller for svindeldeteksjon
Oppdag hvordan Shaip leverte 25,000 XNUMX høykvalitets anti-spoofing-videodatasett med ekte angrepsscenarier og replay-angrepsscenarier for å trene AI-modeller for svindeloppdagelse.
Prosjektoversikt
Shaip samarbeidet med et ledende AI-sikkerhetsselskap for å tilby et høykvalitets, hyllevare anti-spoofing-videodatasett designet for å forbedre AI-modellopplæring for svindeloppdagelse. Datasettet inkluderte 25,000 XNUMX videoer som fanget både ekte angrepsscenarier og replay-angrepsscenarier, og sikret robuste treningsdata for anti-spoofing-modeller.
Hver av 12,500-deltakere bidro med to videoer – en ekte og en replay angrep – spilt inn kl 720p eller høyere oppløsning med en bildefrekvens på 26 FPS og over.
Prosjektets mål var å levere autentiske og varierte datasett som ville gjøre det mulig for AI-modeller å effektivt skille mellom ekte og falske biometriske videoer, og dermed redusere svindelrisikoen i biometriske autentiseringssystemer.
Nøkkeltall
25,000 totalt videoer (12,500 ekte videoer, 12,500 spill av angrepsvideoer på nytt)
12,500 unik
deltakere
5 etnisitetsgrupper
representert i datasettet
Faselevering: 4 partier av 6 250 videoer hver
Metadataattributter: 12 nøkkelparametere for forbedret datasettbrukerbarhet
Anti-spoofing biometrisk datasett omfang
Datasettkurering: Prosjektet fokuserte på å levere høykvalitets anti-spoofing videodatasett bestående av ekte og replay angrepsvideoer. Nøkkelaspekter inkluderte:
- 12,500-deltakere medvirkende to videoer hver (1 ekte, 1 forfalsket).
- Mangfold i opptaksenheter for å forbedre modellens tilpasningsevne.
- Balansert etnisk representasjon for å sikre datasett inkluderende.
Metadatainnsamling: Hver video ble ledsaget av 12 metadataattributter for å forbedre datasetts brukervennlighet.
Utfordringer for videodatainnsamling
Like representasjon
Opprettholde en balansert etnisitetsmessig datadistribusjon mens du kjøper videoer av høy kvalitet.
Kvalitetskontroll
Sikre at hver deltaker bidrar med én ekte og én replay-angrepsvideo for å opprettholde datasettets integritet.
Teknisk konsistens
Overholdelse av strenge retningslinjer for FPS (≥ 26), oppløsning (≥ 720p) og tidsstemplingsnøyaktighet (+/- 0.5 ms).
Hvordan vi løste det
Shaip leverte et strukturert og høykvalitets datasett for å møte prosjektets krav. Løsningen inkluderte:
Datasettkurering og kvalitetskontroll
- 25,000 videoer samlet på tvers 4 faser for å sikre en jevn og strukturert dataflyt, og unngå flaskehalser.
- Streng valideringsprosess for å sikre overholdelse FPS, oppløsning og metadata nøyaktighet. Hver video gjennomgikk flere kvalitetskontroller før endelig aksept.
- Omfattende metadatamerking med 12 attributter:
- Fil ID/navn
- Type angrep (ekte/replay)
- Person-ID
- video~~POS=TRUNC
- Video Varighet
- Emnets etnisitet
- Emnets kjønn
- Om videoen er original eller falsk
- Enhetsnavn/modell
- Person som snakker eller ikke
- Tidsstempel Starttid
- Tidsstempel sluttid
- Balansert etnisk gruppefordeling: Datasettet ble omhyggelig kuratert for å opprettholde en balansert etnisk representasjon. Fordelingen inkluderer latinamerikanske (33 %), sørasiatiske (21 %), kaukasiske (20 %), afrikanske (15 %) og østasiatiske og Midtøsten-populasjoner (hver består av opptil 6 %).
- Ingen dupliserte oppføringer for å opprettholde datasettets unikhet og forhindre skjevheter i AI-trening.
- Etnisk mangfoldig deltakerutvalg å lage et datasett som gjenspeiler brukervariasjoner i den virkelige verden, og forbedrer AI-modellens tilpasningsevne og rettferdighet.
- Variasjon av opptaksenhet inkludert flere smarttelefonmodeller, kameraer og lysforhold for å forbedre modellens robusthet mot ulike miljøinnstillinger.
Utfallet
Det høykvalitets, varierte anti-spoofing-videodatasettet levert av Shaip gjorde det mulig for klienten å trene AI-modeller til nøyaktig å skille mellom ekte og forfalskede videoer i ulike biometriske autentiseringsscenarier. Datasettet bidro til:
Svindeloppdagelse
Forbedret AI-ytelse for å oppdage uredelige biometriske angrep.
Diverse treningsdata
Styrket modellens evne til å gjenkjenne replay-angrep på tvers av ulike etnisiteter, enheter og miljøforhold.
skalerbarhet
Datasettet fungerer som et grunnlag for fremtidige forbedringer og utvidelser av anti-spoofing-modeller.
Shaips datasett har vært med på å forbedre våre AI-drevne anti-spoofing-modeller. Mangfoldet, kvaliteten og strukturerte metadata ga et sterkt grunnlag for å forbedre svindeldeteksjon i biometriske autentiseringssystemer.