Otvoreni AI modeli i autorsko pravo: kako EU mijenja pravila igre

Nova faza europske AI rasprave: od sigurnosti do podataka

Europska rasprava o umjetnoj inteligenciji u kratkom je vremenu napravila zaokret. Fokus se s apstraktnih pitanja sigurnosti, rizika i etike prebacio na vrlo konkretno pitanje: tko smije koristiti čije podatke za treniranje modela. U središtu su generativni sustavi – veliki jezični modeli, generatori slika i videozapisa – čiji učinak izravno ovisi o količini i vrsti podataka kojima su hranjeni.

Europski parlament i Europska komisija jasno poručuju da postojeća pravila o autorskom pravu vrijede i za generativnu AI. Nema iznimke za „pametne“ algoritme niti za projekte koji se deklariraju kao istraživački ili nekomercijalni. Ključno je tržište: ako se model nudi korisnicima u Europskoj uniji, mora poštovati europsko autorsko pravo, neovisno o tome gdje je tehnički treniran ili gdje se nalaze poslužitelji.

To stvara novu razinu odgovornosti za pružatelje modela – od globalnih tehnoloških divova do malih istraživačkih timova i open‑source zajednica.

Što se točno traži od pružatelja modela

Nova pravila i smjernice postavljaju tri ključna zahtjeva za one koji razvijaju i nude generativne modele na tržištu EU‑a:

1. Politika usklađenosti s autorskim pravom

Pružatelji modela moraju imati jasnu internu politiku usklađenosti s autorskim pravom. To uključuje:

definirana pravila o tome koje se izvore smije koristiti za treniranje
procese provjere je li sadržaj licenciran, javan ili pod posebnim uvjetima korištenja
mehanizme za reagiranje na pritužbe nositelja prava.

Za velike korporacije to znači formalne programe usklađenosti i pravne timove. Za male timove i akademske grupe to je često prvi susret s potrebom sustavne dokumentacije i pravnih procedura.

2. Poštovanje opt‑out signala autora

Autori i izdavači sve češće označavaju svoje sadržaje kao isključene iz AI treniranja – putem robots.txt datoteka, specifičnih metaoznaka ili ugovornih odredbi. Europske institucije očekuju da AI pružatelji aktivno poštuju takve opt‑out signale.

Tehnički, to znači da razvojni timovi moraju:

ugraditi alate za prepoznavanje i filtriranje opt‑out sadržaja u pipeline za prikupljanje podataka
redovito osvježavati crawler alate i pravila filtriranja
voditi evidenciju o tome kako su opt‑out zahtjevi implementirani.

Za mnoge open‑source projekte, koji su se oslanjali na masovno preuzimanje web sadržaja bez detaljne kontrole, to je ozbiljna promjena prakse.

3. Sažeci skupova podataka za treniranje

EU AI Act uvodi obvezu objave „sažetka“ datasetova korištenih za treniranje generativnih modela. Ne traži se potpuna lista svakog dokumenta, ali se očekuje dovoljno detaljan pregled da:

nositelji prava mogu razumjeti je li njihov sadržaj vjerojatno korišten
korisnici modela mogu procijeniti pravni i etički profil sustava
regulatori mogu pratiti usklađenost s propisima.

U praksi, sažeci mogu uključivati opis glavnih izvora (npr. javni repozitoriji, licencirane baze podataka, otvoreni znanstveni radovi), vremenski raspon, jezičnu pokrivenost i udio različitih tipova sadržaja (novinski tekstovi, knjige, kod, slike).

Poseban režim za open‑weight modele

EU AI Act uvodi i novu kategoriju: open‑weight modeli. To su modeli čije su težine javno dostupne, iako sam kod ili datasetovi ne moraju nužno biti potpuno otvoreni. Za njih vrijedi poseban, nešto blaži režim tehničkih i sigurnosnih obveza.

Open‑weight modeli ispod određenog broja parametara – prag još ovisi o provedbenim aktima i tehničkim procjenama rizika – imaju:

pojednostavljenu dokumentaciju o sigurnosti
manje zahtjevne obveze testiranja robusnosti i otpornosti
olakšice u pogledu nadzora nad distribucijom i re‑upotrebom modela.

No jedna stvar ostaje nepromijenjena: autorsko pravo. Činjenica da je model „otvoren“ ili da se distribuira pod permisivnom licencom ne oslobađa autore od odgovornosti za eventualno nezakonito korištenje zaštićenih sadržaja u fazi treniranja.

To je izravni udar na dosadašnju praksu dijela open‑source zajednice, koja je otvorenost koda i modela često povezivala s labavijim pristupom pravnim pitanjima oko podataka.

Otvoreni modeli između suvereniteta i troškova

U europskom kontekstu otvoreni modeli imaju posebnu političku težinu. Često se predstavljaju kao ključni alat za digitalni suverenitet: mogućnost da Europa razvija i kontrolira vlastite AI sustave, umjesto da ovisi o zatvorenim rješenjima nekoliko globalnih kompanija.

Nova pravila imaju dvojak učinak na taj projekt.

Poticaj za „pravno čiste“ modele

S jedne strane, regulativa potiče razvoj modela treniranih na:

licenciranim datasetovima (npr. kolektivni ugovori s izdavačima, glazbenim kućama, foto agencijama)
javnim podacima i sadržajima u javnom vlasništvu
specijaliziranim korpusima koje prikupljaju i objavljuju javne institucije.

To gura istraživače i tvrtke prema korištenju javnih infrastrukturnih projekata – nacionalnih i europskih superračunala, zajedničkih data lakeova i tzv. „AI tvornica“ koje nude računalne resurse i kurirane, pravno provjerene skupove podataka.

Primjer su inicijative poput europskih podatkovnih prostora za zdravstvo, industriju ili medije, gdje se pokušava kombinirati visoka razina zaštite podataka s mogućnošću treniranja specijaliziranih modela.

Rast troškova i pritisak na manje timove

S druge strane, stroži zahtjevi transparentnosti, licenciranja i evidencije povećavaju troškove razvoja. To osobito pogađa manje timove i startupe koji:

nemaju pristup velikim licencnim ugovorima s izdavačima
ovise o javno dostupnim podacima i web scraping alatima
nemaju interne pravne timove za upravljanje rizicima.

Za takve aktere dodatni troškovi mogu značiti odgodu lansiranja modela, smanjenje opsega treniranja ili odustajanje od ambicioznijih projekata. Istodobno, veliki globalni igrači lakše apsorbiraju troškove licenci i pravne usklađenosti, što može dodatno produbiti jaz u snazi modela i tržišnom utjecaju.

Kako će se prilagoditi europski timovi i korisnici

U operativnom smislu, nova pravila znače da će se europski timovi koji razvijaju generativne modele morati mnogo ranije u projektu baviti pravnim i organizacijskim pitanjima.

Novi workflow za razvoj modela

Razvojni ciklus više ne može biti isključivo tehnički. Tipičan workflow za europski tim mogao bi izgledati ovako:

Planiranje podataka: već u fazi dizajna modela definira se strategija nabave podataka, ciljani izvori i okvirni licencni budžet.
Ugovorni odnosi: sklapanje ugovora s izdavačima, agregatorima podataka ili kolektivnim organizacijama radi dobivanja dopuštenja za treniranje.
Tehničko filtriranje: implementacija alata koji automatski isključuju sadržaj označen za opt‑out, kao i potencijalno rizične izvore.
Dokumentacija: vođenje detaljne evidencije o podrijetlu datasetova, verzijama i transformacijama podataka.
Priprema sažetaka: izrada strukturiranih sažetaka datasetova koje je moguće javno objaviti bez odavanja poslovnih tajni.

Ovakav pristup približava razvoj AI modela standardima koji su već uobičajeni u farmaceutskoj ili zrakoplovnoj industriji, gdje regulatorni zahtjevi oblikuju čitav životni ciklus proizvoda.

Viša razina transparentnosti za korisnike

Korisnici – od medijskih kuća i softverskih tvrtki do javne uprave – mogu očekivati veću transparentnost oko toga na čemu je model treniran. To im omogućuje:

bolju procjenu pravnog rizika pri uvođenju AI alata u poslovne procese
informiraniji odabir između različitih pružatelja modela
jaču pregovaračku poziciju u odnosu na dobavljače.

Medijske kuće, primjerice, mogu lakše tražiti naknadu ako se pokaže da je model značajno treniran na njihovim sadržajima bez odgovarajuće licence. Javne institucije mogu u natječajima tražiti dokaz o usklađenosti s autorskim pravom i uvid u sažetke datasetova.

Presudne godine: suživot autorskog prava i otvorene inovacije

Sljedećih godinu do dvije bit će ključne za oblikovanje ravnoteže između zaštite kreativnog rada i otvorene inovacije u Europi. Ishod će ovisiti o nekoliko faktora:

kako će se točno tumačiti obveza objave sažetaka datasetova
hoće li sudovi potvrditi široko pravo na treniranje pod određenim uvjetima ili će stati na stranu nositelja prava
koliko će učinkovito funkcionirati kolektivni modeli licenciranja za AI treniranje
hoće li se pojaviti održivi poslovni modeli za otvorene, ali pravno usklađene modele.

Ako europske institucije uspiju uskladiti zahtjeve za poštivanje autorskih prava s pragmatičnim režimom za open‑weight modele, EU bi mogla postati referentno tržište za „pravno čiste“ generativne sustave. To bi značilo konkurentsku prednost za europske pružatelje usluga koji mogu ponuditi transparentne, provjerljive modele – osobito u reguliranim sektorima poput zdravstva, financija i javne uprave.

U suprotnom, prijeti scenarij fragmentacije. Dio razvoja mogao bi se odseliti u jurisdikcije s labavijim pravilima, gdje je lakše i jeftinije masovno prikupljati podatke bez jasnog pristanka. Europa bi tada mogla ostati ovisna o skupo licenciranim, zatvorenim modelima i izgubiti dio inovacijskog potencijala – upravo suprotno od vizije otvorenog, konkurentnog AI ekosustava koju danas mnogi zagovaraju.

U konačnici, pitanje nije hoće li se autorsko pravo primjenjivati na AI, nego kako. Upravo će način provedbe – razina fleksibilnosti, tehnička izvedivost zahtjeva i dostupnost zajedničkih infrastruktura – odlučiti hoće li otvoreni modeli u Europi biti potisnuti ili ojačani novim pravilima igre.

Otvoreni modeli pod pritiskom: kako nova pravila o autorskim pravima mijenjaju europski AI ekosustav

Nova faza europske AI rasprave: od sigurnosti do podataka

Što se točno traži od pružatelja modela