Zašto Europa gradi vlastite LLM‑ove: od OpenEuroLLM‑a do modela za male jezike

Zašto Europa gradi vlastite LLM‑ove: od OpenEuroLLM‑a do modela za male jezike

Zašto Europa treba vlastite velike jezične modele

Razvoj umjetne inteligencije danas je snažno koncentriran u SAD‑u i Kini. Najpoznatiji veliki jezični modeli (LLM‑ovi) dolaze iz nekoliko tehnoloških divova, a većina usluga temelji se na zatvorenim, vlasničkim rješenjima. Europa u tome vidi strateški problem: tehnološku ovisnost, ograničenu kontrolu nad podacima i slabu podršku za većinu europskih jezika.

Europske institucije i industrija zato ulažu u vlastite LLM‑ove. Cilj nije samo „imati svoj GPT“, već izgraditi cijeli sloj AI infrastrukture koji je otvoren, transparentan i usklađen s europskim zakonodavstvom, uključujući Uredbu o umjetnoj inteligenciji (AI Act) i stroge propise o zaštiti podataka (GDPR).

OpenEuroLLM: konzorcij za europske otvorene modele

Jedan od najambicioznijih projekata u tom smjeru je OpenEuroLLM. Riječ je o konzorciju koji okuplja više od 20 europskih tvrtki, sveučilišta i istraživačkih centara. Njihov je cilj razviti obitelj otvorenih LLM‑ova prilagođenih europskim potrebama – od jezika do regulative.

Ključne značajke takvog pristupa su:

  • Otvoreni kod i težine modela – istraživači i tvrtke mogu vidjeti arhitekturu modela, način treniranja i ključne parametre.
  • Transparentni skupovi podataka – barem dio datasetova i metodologije prikupljanja podataka javno je opisan, što olakšava procjenu pristranosti i rizika.
  • Usklađenost s EU regulativom – modeli se od početka dizajniraju uzimajući u obzir GDPR, AI Act i sektorske propise.
  • Multijezična podrška – naglasak nije samo na engleskom, već na širokom spektru europskih jezika, uključujući one s manjim brojem govornika.

Time se OpenEuroLLM i slične inicijative pozicioniraju kao infrastruktura, a ne samo kao još jedan chatbot. Njihovi modeli mogu biti temelj za specijalizirane asistente u javnoj upravi, pravosuđu, zdravstvu, obrazovanju ili medijima.

Otvoreni modeli i suverenitet nad podacima

Za javni sektor i regulirane industrije pitanje podataka je ključno. Slanje povjerljivih dokumenata u oblak globalnog pružatelja usluge često je pravno i sigurnosno osjetljivo. Otvoreni LLM‑ovi nude alternativu: model se može pokretati na vlastitoj infrastrukturi – u podatkovnom centru ministarstva, bolnice, banke ili telekoma.

Takav pristup donosi nekoliko konkretnih prednosti:

  • Kontrola nad podacima – dokumenti i zapisi ne napuštaju lokalni sustav; nema dodatnih prijenosa u treće zemlje.
  • Mogućnost interne revizije – IT i sigurnosni timovi mogu pregledati kako se model integrira u postojeće sustave i koje logove stvara.
  • Fina prilagodba (fine‑tuning) – model se može dodatno trenirati na internim datasetovima: npr. sudskim presudama, medicinskim protokolima ili pravilnicima.
  • Predvidivi troškovi – umjesto plaćanja svake API pozivnice, organizacija upravlja vlastitim resursima (GPU poslužitelji, edge klasteri).

To je posebno važno u sektorima u kojima je povjerljivost apsolutni prioritet, poput zdravstva, financija ili obrane. Otvoreni modeli postaju alat za tehnološki suverenitet – ne samo na razini država, nego i velikih institucija.

Multijezični modeli za više europskih jezika

Paralelno s velikim konzorcijima, u Europi se razvija čitav niz manjih, specijaliziranih LLM‑ova. Riječ je o kompaktnim modelima s manje parametara, optimiziranima za 10‑ak ili više europskih jezika. Njihova prednost je što se mogu pokretati na skromnijem hardveru: snažnijim poslužiteljima, lokalnim GPU strojevima pa čak i naprednijim edge uređajima.

Takvi modeli obično su optimizirani za praktične zadatke:

  • sažimanje dokumenata i zapisnika
  • generiranje i uređivanje e‑pošte
  • prevođenje i parafraziranje
  • osnovna analiza teksta i klasifikacija upita

Za mnoge organizacije to je dovoljno za prve valove automatizacije. Primjerice, lokalna uprava može koristiti multijezični model za automatsko razvrstavanje građanskih upita, generiranje nacrta odgovora i prevođenje dokumenata na više službenih jezika EU‑a.

Što to znači za hrvatski jezik

Hrvatski jezik, poput mnogih manjih jezika, često je slabo zastupljen u globalnim modelima. Korisnici u praksi vide nesigurne prijevode, neprecizne pravne formulacije i poteškoće u razumijevanju lokalnih pojmova. Otvoreni europski modeli mijenjaju tu sliku.

Ključ je u tome da lokalne institucije i stručnjaci mogu sudjelovati u izgradnji i prilagodbi modela:

  • Pravni i administrativni korpusi – dodavanje zakonodavstva, sudske prakse, službenih obrazaca i upravnih postupaka na hrvatskom.
  • Stručna terminologija – uključivanje rječnika i dokumenata iz medicine, tehničkih struka, obrazovanja i medija.
  • Lokalni kontekst – treniranje na sadržajima koji odražavaju hrvatske institucije, javne politike i kulturni kontekst.

Rezultat su modeli koji ne samo da „znaju hrvatski“, nego razumiju kako izgleda tipičan dopis ministarstvu, presuda općinskog suda ili medicinski nalaz. Time se poboljšava kvaliteta odgovora, ali i jača suverenitet nad podacima: domaći akteri odlučuju koji se skupovi podataka koriste i pod kojim uvjetima.

Primjene u hrvatskom javnom i privatnom sektoru

Konkretnije, lokalno prilagođeni LLM‑ovi mogu se koristiti u nizu scenarija:

  • Javna uprava – asistenti za službenike koji generiraju nacrte rješenja, sažimaju zakone ili pomažu građanima kroz chat sučelja na hrvatskom.
  • Pravosuđe – alati za pretraživanje sudske prakse, izradu nacrta podnesaka i strukturiranje velikih spisa.
  • Zdravstvo – podrška pri izradi medicinske dokumentacije, sažimanje nalaza i priprema informiranih pristanka na razumljivom jeziku.
  • Mediji i izdavaštvo – pomoć pri obradi arhiva, transkripciji i analizi sadržaja, uz očuvanje stilskih i jezičnih nijansi.
  • Poduzeća – interni asistenti za podršku korisnicima, izradu ponuda i obradu ugovora na hrvatskom i drugim jezicima regije.

U svim tim slučajevima otvoreni modeli omogućuju da se rješenja razvijaju i hostaju lokalno, uz veću kontrolu nad time kako se podaci koriste i pohranjuju.

Tehnički izazovi: performanse, resursi i održavanje

Unatoč napretku, otvoreni europski modeli u mnogim zadacima još zaostaju za vrhunskim zatvorenim rješenjima poput najnovijih GPT ili Gemini varijanti. Razlozi su tehnički i organizacijski:

  • Skala treniranja – treniranje modela s desecima ili stotinama milijardi parametara traži ogromne klastere GPU‑ova i vrlo velike datasetove.
  • Optimizacija za inference – kako bi model bio koristan u praksi, mora biti dovoljno brz i jeftin za pokretanje u realnom vremenu.
  • Održavanje i verzioniranje – modeli se moraju redovito ažurirati, popravljati i testirati na novim skupovima podataka.
  • Sigurnost i filtriranje sadržaja – potrebno je ugraditi mehanizme za sprječavanje štetnih izlaza, dezinformacija i kršenja propisa.

Zahtjevno je paralelno graditi i istraživačku bazu i industrijski ekosustav koji može pratiti tempo globalnih divova. No otvoreni karakter projekata omogućuje da se resursi dijele: isti bazni model može poslužiti kao temelj za desetke specijaliziranih rješenja u različitim državama.

Europa između otvorenog koda i stroge regulative

Europski pristup AI‑ju pokušava pomiriti dva načela: poticanje inovacija kroz otvoreni kod i zaštitu građana kroz strogu regulativu. AI Act uvodi obveze transparentnosti, upravljanja rizicima i nadzora nad visokorizičnim sustavima. Otvoreni LLM‑ovi u tom su okviru i prilika i izazov.

S jedne strane, otvorenost olakšava ispunjavanje zahtjeva za transparentnost i reviziju. Regulatori i neovisni istraživači mogu bolje razumjeti kako model funkcionira. S druge strane, potrebno je definirati odgovornosti: tko je odgovoran za štetu ako je model otvoren, a mnogi ga prilagođavaju i distribuiraju dalje.

Upravo zato konzorciji poput OpenEuroLLM‑a rade i na smjernicama za odgovornu uporabu, licencama i standardima dokumentacije modela. Ideja je stvoriti ekosustav u kojem su i razvojni timovi i korisnici svjesni rizika i svojih obveza.

Što korisnike u Hrvatskoj čeka u sljedećim godinama

Za poslovne korisnike i institucije u Hrvatskoj iduće godine donijet će sve više izbora. S jedne strane, globalni komercijalni modeli ostat će važan dio ponude – osobito za zadatke koji traže vrhunsku razinu generativnih sposobnosti ili multimodalne funkcije (tekst, slika, zvuk, video).

S druge strane, rast će dostupnost lokalno prilagođenih, otvorenih modela. Pojavit će se rješenja koja:

  • bolje razumiju hrvatski i jezike regije,
  • mogu se pokretati na infrastrukturi u RH ili EU,
  • omogućuju veću kontrolu nad podacima i procesima treniranja,
  • lakše se integriraju s postojećim informacijskim sustavima javne uprave i poduzeća.

Za organizacije koje strateški razmišljaju o AI‑ju to znači da će morati donositi odluke ne samo o tome koji model koristiti, nego i kako ga koristiti: u oblaku, hibridno ili potpuno lokalno; s otvorenim ili zatvorenim kodom; uz vlastiti ili vanjski tim za prilagodbu i održavanje.

Zaključak: temelji za samostalniji europski AI

Izgradnja europskih LLM‑ova dugoročan je projekt koji neće preko noći izbrisati prednost globalnih tehnoloških divova. No trend je jasan: Europa želi imati vlastitu AI infrastrukturu, prilagođenu svojim jezicima, pravilima i institucijama.

Otvoreni modeli, konzorciji poput OpenEuroLLM‑a i multijezični kompaktni LLM‑ovi stvaraju temelje za samostalniji i lokalno relevantan AI ekosustav. Za jezike poput hrvatskog to je prilika koja se ne smije propustiti: prvi put postoji realna mogućnost da umjetna inteligencija doista razumije – i poštuje – lokalni jezik i kontekst.

Natrag na vrh