Što zapravo znači robustan AI pod EU AI Actom?

Što zapravo znači robustan AI pod EU AI Actom?

Zašto je „robustnost” postala ključna riječ EU regulative

Kako se europski Akt o umjetnoj inteligenciji (EU AI Act) počinje primjenjivati na generativne modele i druge sustave visokog rizika, jedan pojam iz zakona sve češće zbunjuje developere, pravnike i regulatore: robustnost. Propisi traže da AI sustavi budu „robustni“, ali ne nude jasan odgovor na osnovna pitanja – robustni u odnosu na što, u kojim uvjetima i za koje namjene.

Bez tih odgovora teško je dizajnirati testove, izabrati metrike i dokazati usklađenost. Posebno za generativne modele, čije se ponašanje mijenja s novim verzijama, finim podešavanjem i promjenama podataka. Nedavni radovi europskih znanstvenika predlažu konkretniji, kontekstualni pristup koji bi trebao premostiti jaz između apstraktnih zakonskih zahtjeva i svakodnevne prakse razvoja AI sustava.

Tri ključna pitanja: robustnost čega, na što i gdje

Autori jednog od novih istraživačkih radova o robusnosti pod EU AI Actom predlažu da se svaka procjena razbije na tri pitanja:

  • Robustnost čega? – kojeg dijela sustava, kojeg modela ili koje funkcionalnosti.
  • Na koje poremećaje? – na kakve vrste šuma, grešaka, napada ili promjena u podacima.
  • U kojem okruženju? – u kojim uvjetima rada, s kojim korisnicima i u kojem domenu primjene.

Drugim riječima, nije isto testirati je li model za medicinsku dijagnostiku stabilan na šum u slikama, ili provjeravati kako se chatbot ponaša kada korisnik prompt-injekcijom pokušava zaobići zaštite. U prvom slučaju fokus je na kvaliteti ulaznih podataka i pouzdanosti senzora ili uređaja. U drugom slučaju naglasak je na sigurnosti interakcije, filtriranju sadržaja i otpornosti na namjerne napade.

Ovakav trodijelni okvir pomaže prevesti opću zakonsku obvezu u konkretne scenarije testiranja. Umjesto da se govori o „općoj“ robusnosti, svaka organizacija mora eksplicitno definirati u kojem dijelu sustava i u kojim uvjetima želi dokazati otpornost.

Zašto jedna univerzalna metrika ne funkcionira

U prvim raspravama o EU AI Actu često se implicitno pretpostavljalo da je moguće definirati jednu ili nekoliko univerzalnih metrika robusnosti. Istraživači sada upozoravaju da je takav pristup nerealističan. Razlozi su tehnički, ali i organizacijski.

  • Različiti domeni, različiti rizici. U zdravstvu je kritična robusnost na varijacije između medicinskih uređaja ili bolnica. U financijama je važnija otpornost na promjene tržišnih uvjeta i manipulacije ulaznim podacima. U obrazovanju se naglasak seli na pravednost i izbjegavanje pristranosti u procjeni učenika.
  • Različite vrste modela. Klasični modeli za predikciju (npr. kreditni scoring) ponašaju se drukčije od generativnih modela (LLM-ovi, generativni modeli za slike). Za jedne je ključna stabilnost parametara i treniranog modela, za druge kontrola nad generiranim sadržajem i sposobnost ograničavanja halucinacija.
  • Promjenjivo okruženje. AI sustavi često rade u dinamičnim uvjetima – od promjena korisničkog ponašanja do novih vrsta napada. Metrika koja je imala smisla u fazi razvoja može postati irelevantna nakon nekoliko mjeseci rada u produkciji.

Zbog toga se sve više zagovara slojeviti sustav standarda: horizontalni standardi koji definiraju zajedničke principe i pojmove, te vertikalni, domenski standardi koji detaljno opisuju tipične rizike, podatke i testove za pojedine sektore.

Horizontalni i vertikalni standardi robusnosti

Predloženi okvir oslanja se na dva komplementarna sloja.

Horizontalni standardi: zajednički jezik i principi

Horizontalni standardi vrijede za sve AI sustave, bez obzira na domenu. Oni bi trebali:

  • jasno definirati osnovne pojmove (robustnost, otpornost na napade, generalizacija, drif podataka),
  • postaviti opće principe testiranja (transparentnost, ponovljivost, dokumentiranje scenarija),
  • propitati minimalne zahtjeve za dokumentaciju (opis modela, datasetova, procesa treniranja, verzioniranje),
  • odrediti opće vrste testova (stres testovi, adverzarna testiranja, evaluacije u stvarnom okruženju).

Takvi standardi stvaraju zajednički jezik između developera, regulatora i korisnika. Omogućuju da se zahtjevi EU AI Acta tumače konzistentno u cijeloj Uniji, bez obzira radi li se o banci, telekomu ili bolnici.

Vertikalni, domenski standardi: konkretni testovi po sektorima

Vertikalni standardi spuštaju se na razinu konkretnih sektora i primjena. Oni bi, primjerice, za zdravstvo, financije ili obrazovanje definirali:

  • tipične izvore rizika i poremećaja (npr. varijacije između medicinskih uređaja, promjene kamatnih stopa, sezonske promjene u školskim rezultatima),
  • preporučene vrste datasetova za testiranje (referentni skupovi, sintetički podaci, stvarni podaci uz anonimizaciju),
  • preporučene metrike robusnosti za taj sektor,
  • primjere scenarija uporabe i minimalne pragove performansi.

U praksi to znači da će se robustnost modela za analizu medicinskih slika mjeriti drugim alatima i pragovima nego robustnost sustava za detekciju prijevara u online plaćanjima. No, oba će se sustava i dalje oslanjati na iste horizontalne principe, što olakšava usporedbu i nadzor.

Dinamički repozitorij metoda umjesto statičnih pravila

Još jedna važna ideja iz novih istraživanja jest uspostava dinamičkog repozitorija metoda testiranja robusnosti. Umjesto da se u regulativu ugrade fiksni popisi testova, predlaže se živ sustav preporučenih praksi koji se stalno nadopunjava.

Takav repozitorij mogao bi sadržavati:

  • opis konkretnih testnih procedura za različite vrste modela (LLM-ovi, modeli za slike, tablični modeli),
  • primjere adverzarnog testiranja i red-teaming scenarija,
  • preporuke za stres testove (npr. ekstremne vrijednosti ulaza, kombinacije rubnih slučajeva),
  • studije slučaja iz industrije, s opisom što je funkcioniralo, a što nije.

Prednost takvog pristupa je očita: kako se pojavljuju novi napadi, nove arhitekture modela ili nove vrste podataka, repozitorij se može brzo ažurirati, bez čekanja na višegodišnje cikluse izmjena zakona ili formalnih standarda.

Za developere generativnih modela to znači manje improvizacije i manje „sive zone“. Umjesto da svaki tim iznova osmišljava vlastite testove, mogu se osloniti na provjerene postupke koje je zajednica već isprobala, uz mogućnost da dodaju vlastite prilagodbe.

Kako robustnost postaje mjerljiva u praksi

Za europske tvrtke i institucije, kontekstualni pristup robusnosti ima vrlo praktičnu dimenziju: robustnost postaje mjerljiva i dokaziva. Primjeri iz dva osjetljiva sektora pokazuju kako bi to moglo izgledati.

Primjer: AI u banci za procjenu kreditnog rizika

Banka koja želi uvesti AI sustav za procjenu kreditnog rizika morat će pokazati kako model reagira na tipične „poremećaje“:

  • promjene u ekonomskim uvjetima (npr. nagli rast kamatnih stopa, pad BDP-a),
  • promjene u strukturi klijenata (nove skupine korisnika, drugačiji obrasci ponašanja),
  • neprijateljske primjere – pokušaje manipulacije ulaznim podatcima (lažni prihodi, koordinirane prijevare).

Testovi bi mogli uključivati povijesne scenarije (krize, recesije), sintetičke podatke koji simuliraju ekstremne uvjete te adverzarno generirane primjere dizajnirane da „zavaraju“ model. Rezultati moraju biti dokumentirani, uz jasne pragove kada se model smatra dovoljno robusnim za produkciju.

Primjer: AI u bolnici za analizu medicinskih slika

U zdravstvu, bolnica koja koristi modele za analizu slika ili medicinskih zapisa morat će dokumentirati kako sustav reagira na varijacije između:

  • različitih uređaja i proizvođača (npr. CT iz različitih bolnica),
  • različitih bolnica i protokola snimanja,
  • različitih populacija pacijenata (dob, spol, komorbiditeti).

Robusnost se ovdje ne svodi samo na točnost, već i na stabilnost performansi kroz različite skupine i uvjete. Ako model pokazuje visoku točnost u jednoj bolnici, ali značajno lošije rezultate u drugoj, regulator će teško prihvatiti da je sustav „robustan“ na razini cijele države ili EU.

Povezivanje prakse AI zajednice s pravnim zahtjevima

AI zajednica već godinama koristi niz alata i tehnika za provjeru ponašanja modela: adverzarna testiranja, red-teaming, stres testovi, A/B testiranja u stvarnom okruženju, kontinuirano praćenje performansi nakon puštanja u produkciju. Problem je bio u tome što ti postupci nisu bili jasno povezani s onim što zakon formalno traži.

Kontekstno osjetljivi standardi robusnosti mogli bi to promijeniti. Umjesto apstraktne obveze da sustav bude „robustan“, developeri bi dobili jasne, ali dovoljno fleksibilne okvire koji:

  • prepoznaju postojeće industrijske prakse kao legitimne načine ispunjavanja zakonskih zahtjeva,
  • omogućuju prilagodbu novim modelima i rizicima bez potpunog redizajna procesa,
  • olakšavaju komunikaciju između tehničkih timova i pravnih odjela unutar organizacija.

Za regulatore to znači da mogu tražiti konkretne dokaze – logove testiranja, izvješća o red-teamingu, rezultate stres testova – umjesto da se oslanjaju na općenite izjave o „visokoj razini sigurnosti“.

Balans između zaštite korisnika i inovacije

Dugoročno, zaokret prema kontekstno osjetljivim standardima robusnosti mogao bi pomoći EU da postigne ciljanu ravnotežu: visoku razinu zaštite korisnika, uz očuvanje prostora za inovaciju u generativnoj umjetnoj inteligenciji.

Ako standardi ostanu preopćeniti, tvrtke će se suočavati s regulatornom neizvjesnošću i rizikom različitih tumačenja po državama članicama. Ako pak budu previše rigidni i vezani uz određene tehnologije, brzo će zastarjeti i zakočiti razvoj novih modela i arhitektura.

Kontekstualni pristup – s jasnim horizontalnim principima, domenski specifičnim standardima i dinamičkim repozitorijem metoda – nudi srednji put. Robustnost prestaje biti nejasan pravni slogan i postaje skup mjerljivih, provjerljivih svojstava AI sustava, prilagođenih stvarnim rizicima i načinima uporabe.

U tom scenariju, robustan AI pod EU AI Actom znači ne samo da model „dobro radi“ u laboratoriju, već da je njegova otpornost na poremećaje sustavno testirana, dokumentirana i kontinuirano praćena u stvarnom okruženju.

Natrag na vrh