Sintetički podaci u fokusu: Uvidi u usklađenost sa Uredbom o veštačkoj inteligenciji i GDPR-om

Sintetički podaci u fokusu: Uvidi u usklađenost sa Uredbom o veštačkoj inteligenciji i GDPR-om

10.12.2024.

Usklađenost je ključna 

Neusaglašenost sa GDPR-om ili novom Uredbom EU o veštačkoj inteligenciji može dovesti do ozbiljnih finansijskih posledica za preduzeća. Kazne predviđene članom 99 Uredbe o veštačkoj inteligenciji kreću se od upozorenja i nematerijalnih mera do novčanih kazni koje mogu iznositi i do 7% godišnjeg globalnog prihoda prekršioca. Ozbiljnija kršenja GDPR-a, koja se kose sa osnovnim načelima zaštite podataka, mogu rezultirati kaznama do 4% godišnjeg prihoda ili do 20 miliona evra, zavisno od toga šta je veće. 

Neusaglašenost sa ovim uredbama može izazvati značajne finansijske probleme za kompanije koje posluju širom EU. Pored usklađenosti sa novim zakonodavstvom o veštačkoj inteligenciji, kompanije moraju obratiti pažnju na implikacije na privatnost, budući da modeli mašinskog učenja koriste skupove podataka. 

Zvuči komplikovano? Šta ako bi postojali podaci koje nije potrebno prikupljati iz stvarnog sveta? Ovde na scenu stupaju sintetički podaci. 

Šta su sintetički podaci? 

Sintetički podaci su veštački stvoreni putem kompjuterske simulacije ili generisani algoritmima kako bi zamenili podatke iz stvarnog sveta. Oni služe kao alternativa ili dopuna stvarnim podacima za modele mašinskog učenja, posebno kada stvarni podaci nisu lako dostupni. 

Ovaj koncept postaje sve popularniji u oblasti dubokog učenja i ima razne primene, poput eksperimenata u oblasti nauke o podacima i zaštite podataka o pacijentima u zdravstvenom sektoru, čime se klinička ispitivanja čine efikasnijim. 

Iako su sintetički podaci veštački, oni statistički i matematički odražavaju događaje iz stvarnog sveta. Pomažu u obuci algoritama mašinskog učenja koji zahtevaju velike količine podataka, što može biti skupo i ograničeno pravilima o korišćenju podataka. 

Zašto sintetički podaci? 

Regulatori zaštite podataka preporučuju sintetičke podatke kao alternativu stvarnim podacima u određenim kontekstima. Na primer, Norveška agencija za zaštitu podataka kaznila je Konfederaciju sporta Norveške zbog povrede ličnih podataka koja je uključivala nenamerno deljenje podataka o 3,2 miliona Norvežana tokom testiranja rešenja za cloud. Regulator je naglasio da je ovo moglo biti izbegnuto upotrebom sintetičkih podataka. 

Šta Zakon o veštačkoj inteligenciji kaže o sintetičkim podacima? 

Uredba o veštačkoj inteligenciji primarno reguliše visokorizične AI sisteme i nameće zahteve za AI modelima koji obrađuju lične podatke. Član 15 zahteva da visokorizični AI sistemi budu dizajnirani i razvijeni tako da obezbede tačnost, pouzdanost, bezbednost i dosledne performanse tokom njihovog životnog ciklusa. 

Ako pogledamo član 10 (na snazi od avgusta 2026.) pod nazivom „Podaci i upravljanje podacima“, možemo videti da se u njemu navode kriterijumi za obuku, validaciju i testiranje skupova podataka za visokorizične AI sisteme. Skupovi podataka za obuku, validaciju i testiranje podložni su praksama upravljanja i obrade podataka koje su primerene za namenjene svrhe visokorizičnih AI sistema, uključujući, na primer, relevantne dizajnerske izbore, procese prikupljanja podataka i poreklo podataka, relevantne operacije obrade podataka itd. 

Pitate se gde se u ovom obimnom članu pominju sintetički podaci? Samo nastavite da čitate, skoro smo stigli. 

Sada, ako pređemo na član 10 (stav 5), možemo videti da Uredba o veštačkoj inteligenciji dozvoljava, ako je to strogo neophodno za potrebe otkrivanja i ispravljanja pristrasnosti u vezi sa visokorizičnim AI sistemima, obradu posebnih kategorija ličnih podataka uz primenu odgovarajućih zaštitnih mera. Ova obrada može se desiti ako, prema članu 10 (stav 5) (a), otkrivanje i ispravljanje pristrasnosti ne može biti efikasno postignuto obradom drugih podataka, uključujući sintetičke i anonimizovane podatke. 

Ukratko, član 10 (stav 5) dozvoljava obradu ličnih podataka posebne kategorije radi otkrivanja i ispravljanja pristrasnosti u visokorizičnim AI sistemima, pod uslovom da drugi podaci, uključujući sintetičke i anonimizovane, ne mogu ispuniti tu svrhu. 

Pored toga, Uredba o veštačkoj inteligenciji takođe priznaje neosobnu prirodu sintetičkih podataka u članu 59 (stav 1) (b). 

GDPR o sintetičkim podacima 

Svi zakonodavni režimi zaštite podataka fokusiraju se na principe koji promovišu zakonitu obradu podataka, kao i na zahteve u vezi sa kvalitetom podataka, minimizacijom i bezbednošću. Utvrđeno je da se zamenom prikupljenih podataka iz stvarnog sveta veštački stvorenim podacima može dodati novi sloj sigurnosti ličnim podacima. Budući da se sintetički podaci uglavnom stvaraju po zahtevu, oni bi mogli biti u skladu s načelom minimizacije podataka. 

Posmatrajući pristup zaštiti podataka ugrađenoj u dizajn, smatra se da bi tehnologija sintetičkih podataka mogla unaprediti zaštitu podataka, poboljšati pravičnost i smanjiti pristrasnost. 

Međutim, iako zagovornici sintetičkih podataka tvrde da sintetički podaci predstavljaju anonimizovane podatke i da se njihove koristi mogu prepoznati u uvodnoj odredbi 29 GDPR-a, i dalje nije rešeno pitanje da li se oni mogu smatrati anonimizovanim podacima. Smatra se da je stepen do kojeg se sintetički podaci mogu razlikovati od originalnih podataka odlučujući faktor u određivanju da li se mogu smatrati anonimnim. 

Koja je razlika između anonimizovanih i pseudonimizovanih podataka? 

Anonimizovani podaci odnose se na informacije koje su obrađene tako da se uklone oznake koje bi mogle da se koriste za identifikaciju osobe, bilo direktno ili indirektno. 

Prema GDPR-u, principi zaštite podataka primenjuju se na sve informacije kojima se određuje ili se može odrediti identitet fizičke osobe. Međutim, principi zaštite podataka ne treba da se primenjuju na anonimne informacije ili informacije koje se ne odnose na određen ili odrediv identitet osobe, ili na lične podatke koji su anonimizovani na takav način da lice na koje se podaci odnose nije ili više nije identifikovano. 

Ipak, potpuno anonimizovanje može biti teško ostvariti, jer je potrebno uzeti u obzir i indirektne oznake koje bi mogle postojati unutar skupova podataka. Ukoliko takve indirektne oznake mogu otkriti anonimizovane podatke, onda anonimizacija nije postignuta. 

Pseudonimizovani podaci, s druge strane, prema GDPR-u i dalje se smatraju ličnim podacima, jer omogućavaju identifikaciju fizičkog lica uz pomoć dodatnih informacija. GDPR navodi da, prilikom utvrđivanja da li je fizička osoba identifikovana, treba uzeti u obzir sva sredstva koja bi se razumno mogla koristiti, uključujući izdvajanje podataka od strane rukovaoca ili druge osobe radi direktne ili indirektne identifikacije. 

Ključna karakteristika pseudonimizacije je da je privremena i reverzibilna, zbog čega podleže pravilima o privatnosti iz svih glavnih propisa o zaštiti podataka, uključujući GDPR, CPRA i HIPAA. Pseudonimizacija se može postići na različite načine, poput upotrebe kriptografskih hešova i šifrovanja. Za razliku od anonimizovanih podataka, pseudonimizovani podaci zadržavaju mogućnost oporavka originalnih podataka, što ovu tehniku čini pogodnijom za korišćenje u poslovnom svetu. 

Član 4 GDPR-a definiše pseudonimizaciju kao obradu ličnih podataka na način koji onemogućava njihovu atribuciju određenom licu bez upotrebe dodatnih informacija (poput vrednosti heša, tokena ili koda), pod uslovom da se te dodatne informacije čuvaju odvojeno i podložne su tehničkim i organizacionim merama koje garantuju da se podaci ne mogu povezati sa identifikovanom osobom. 

Slična definicija pseudonimizacije nalazi se i u Zakonu o zaštiti podataka o ličnosti Republike Srbije. U našem zakonu pseudonimizacija se pominje u više članova; na primer, prema članu 50, rukovalac i obrađivač podataka treba da sprovedu odgovarajuće tehničke, organizacione i personalne mere kako bi se postigao nivo bezbednosti koji odgovara riziku, a te mere uključuju pseudonimizaciju i šifrovanje podataka. 

Zaključak je ovaj- glavna razlika između anonimizacije i pseudonimizacije leži u odgovoru na jedno pitanje: da li se skup podataka može preobratiti iz neidentifikabilnog u identifikabilan uz pomoć dodatnih informacija ili tehnologija? 

Da li je anonimizacija pravi cilj sintetičkih podataka ili ne? 

Stvaranje sintetičkih podataka bez ikakvih veza s originalnim subjektima podataka moglo bi osigurati poverljivost i eliminisati rizik od ponovne identifikacije. Međutim, postoji tekuća debata: da li anonimizacija oduzima sintetičkim podacima njihovu korisnost? Da li sintetički podaci mogu pružiti rezultate slične onima iz stvarnog sveta kada su anonimizovani? 

Za sintetičke podatke da bi bili istinski anonimni i u skladu s GDPR kriterijumima, ponovna identifikacija mora biti nemoguća, bilo direktno ili indirektno. 

Publikacija AEPD iz 2021. o nesporazumima u vezi s anonimizacijom pojašnjava da anonimizacija ne mora nužno značiti gubitak korisnosti. Korisnost anonimizovanih podataka zavisi od svrhe i prihvatljivog rizika od ponovne identifikacije. Pošto lični podaci ne mogu biti trajno sačuvani izvan njihove originalne svrhe, čekanje na buduću korisnost nije opcija. 

Istorija je pokazala više primera neuspele anonimizacije koja je dovela do ponovne identifikacije. Na primer, 2013. godine, Komisija za taksije i limuzine u Njujorku objavila je podatke o preko 173 miliona taksi vožnji, uključujući navodno anonimizovane brojeve licenci. Zbog netačne anonimizacije, bilo je moguće identifikovati originalne brojeve licenci i pojedinačne vozače. 

Mogu li sintetički podaci biti izuzeti iz GDPR-a? 

Ne baš. Čak i ako tvrdnja o potpuno anonimnim podacima može biti tačna, zaštitne mere GDPR-a ne mogu biti u potpunosti zaobiđene. Ako proces generisanja sintetičkog skupa podataka posmatramo kao proces anonimizacije, to bismo i dalje mogli kvalifikovati kao obradu ličnih podataka. To znači da rukovalac i dalje mora uspostaviti zakonit osnov za generisanje sintetičkih podataka. 

Sintetički podaci, dakle, balansiraju između pružanja zaštite privatnosti i očuvanja korisnosti. Međutim, i dalje ostaje izazov osigurati da generisani podaci nisu podložni ponovnoj identifikaciji, dok se istovremeno održava njihova svrha i vrednost. 

Kako postići usklađenost? 

Korišćenje sintetičkih podataka ima veliki potencijal za poboljšanje usklađenosti i ispunjavanje ključnih zahteva GDPR-a i Uredbe o veštačkoj inteligenciji. Uzimanje pravnih zahteva u obzir i pravilna primena procesa mogu pomoći u očuvanju usklađenosti. 

Možete započeti procenom specifičnih potreba vašeg poslovanja i razmotriti da li je upotreba sintetičkih podataka odgovarajući pristup. Njihova glavna korisnost može se videti u mašinskom učenju i naučnim istraživanjima. 

Obratite pažnju na svoje obaveze prema GDPR-u. Ne zaboravite da procenite da li se sintetički skupovi podataka dovoljno razlikuju od svojih originalnih verzija i prilagodite parametre vašeg AI modela u skladu s tim. Preporučuje se sprovođenje testa identifikacije na sintetičkom skupu podataka kako bi se utvrdilo da li je ponovna identifikacija moguća. Razmotrite sve organizacione i tehničke mere koje se posebno odnose na integritet, upravljanje bezbednošću, poverljivost i tehnike reagovanja na incidente. 

Za prilagođene savete i osiguranje potpune usklađenosti, preporučeno konsultovati advokata specijalizovanog za IT pravo. 

Ovo nije prvi put da diskutujemo o temama vezanim za veštačku inteligenciju. Više o AI Uredbi i korporativnoj usklađenosti možete saznati u ovom članku: ‘Veštačka inteligencija i usklađenost poslovanja- Uvod’. Ako vas zanima odnos između veštačke inteligencije i intelektualne svojine, pogledajte jedan od naših starijih članaka: AI i pravo intelektualne svojine: Da li AI može stvoriti autorsko delo?’. 

Napomena: Ovaj tekst ne predstavlja pravni savet, već lično mišljenje autora. 

Scroll