Odprtokodna AI v regulirani EU: 4 vektorji preverjanja

Odprtokodna AI je edina obrambna osnova za regulirane evropske namestitve — in ‘odprto’ ni vprašanje licence. To je štirivektorska odločitev o nabavi: dostop do uteži, poreklo učnih podatkov, topologija gostovanja in odgovornost ponudnika po dodatnem učenju. Vsak vodilni članek o tej temi se ustavi pri izjemi AI zakona za odprtokodne rešitve in razglasi vprašanje za rešeno. Ni tako.

Ko bolnišnica, banka ali ministrstvo dodatno uči Apertus, Mistral ali Llama na notranjih podatkih, prevzame polne obveznosti ponudnika GPAI in izjema izpuhti. Ta objava daje uradnikom za skladnost in CIO-jem preverjanje, ki ga ta odločitev dejansko zahteva — panogo za panogo, model za model, z dokumentacijsko bremenom vračunano, preden se podpiše naročilni zapisnik.

Odprtokodna izjema se ne prenese v namestitev

AI zakon je začel veljati 1. avgusta 2024 s faznim uvajanjem do 2. avgusta 2027, obveznosti GPAI pa so začele veljati avgusta 2025 ^[3]^[6]. Odprtokodna izjema, ki jo vsi navajajo v naročilnih predstavitvah, je pogojena: ponudniki odprtokodnih GPAI ostajajo zavezani nekaterim obveznostim, odprtokodni GPAI modeli s sistemskimi tveganji pa niso izvzeti iz nobene od njih ^[3].

Izjema se nanaša na dejanje izdaje modela pod prosto in odprtokodno licenco. Ne prenese se z utežmi v regulirano namestitev. Bolnišnica, ki prenese Apertus, banka, ki potegne Mistral, ministrstvo, ki poganja Llama — nobena od njih ne ‘uporablja odprtokodne AI’ v regulativnem smislu, ko te uteži vstopijo v visokotveganostni delovni tok iz Priloge III. Namešča AI sistem, ta AI sistem pa ima svoje obveznosti ne glede na to, kako so bile osnovne uteži licencirane.

Definicija ponudnika dosega vsakega pravnega ali fizičnega osebo, javno upravo ali organ, ki razvije ali da razviti AI sistem ali GPAI model ter ga trži pod svojim imenom — vključno s ponudniki iz tretjih držav, katerih rezultat se uporablja v EU ^[3]. Odprte uteži tega računa ne spremenijo. Spremenijo oskrbovalno verigo, na kateri sedite.

Štirje vektorji, ki dejansko odločijo o uporabnosti

Licenca je najmanj zanimiva os. Štirje vektorji, ki določijo, ali je odprtokodni model uporaben v reguliranem skladu, so dostop do uteži, poreklo učnih podatkov, topologija gostovanja in odgovornost po dodatnem učenju. Ocenite iste kandidate — Apertus, Mistral, Llama, Qwen, Kimi K2 — proti tem vektorjem in kratki seznami za zdravstvene, finančne, pravne in javno-sektorske nabave se ostro razhajajo.

Dostop do uteži je binarni: ali lahko naložite datoteko v svoj lastni inference runtime, ali kličete tuji API. Poreklo učnih podatkov je ocenjeno. Švicarska izdaja Apertus je objavila uteži, učne podatke in vmesne kontrolne točke, učenje pa je potekalo pod švicarskimi pravili varstva podatkov, švicarskim avtorskim pravom in zahtevami transparentnosti AI zakona EU na podatkovni zbirki, filtrirani za odstranitev osebnih podatkov in spoštovanje opt-out-ov spletnih strani ^[1]. Mistral in Llama objavita uteži, ne pa osnovnih korpusov. Qwen in Kimi K2 objavita uteži iz neevropskih jurisdikcij z omejeno javno dokumentacijo porekla. To niso enakovredni naročilni objekti.

Topologija gostovanja je vektor, ki se najpogosteje zmede. ‘Odprtokodni’ model, ki teče na hiperskalerski inference končni točki, je z vidika DORA ali NIS2 odvisnost od ICT tretje osebe — ne suvereni dokument. Hermetično odprta namestitev na zaprtih WaveNode napravah je drugačen skladnostni položaj kot iste uteži, strežene iz oblaka s sedežem v ZDA. Odgovornost po dodatnem učenju je vektor, ki ga skoraj nihče ne vračuna: kupec postane ponudnik GPAI navzdol, ko materijalno spremeni model, in dokumentacijske obveznosti mu sledijo.

Zdravstvo: EHDS in MDR prekašajo privzeto AI zakona

Bolnišnice in ponudniki medicinske tehnologije se ne morejo optimizirati samo proti AI zakonu. Evropski prostor zdravstvenih podatkov in Uredba o medicinskih pripomočkih stojita nad njim in diktirajo, da se samo modeli z revizijskimi povzetki učnih podatkov in inference na kraju samem kvalificirajo za klinične delovne tokove. Komisijin projekt SHAIPED, zagnan marca 2025, pilotira AI modele na infrastrukturi HealthData@EU pod EHDS ravno zato, ker se podatkovna raven za klinično AI ne more zanašati na generične hiperskalerske končne točke ^[8].

Uporabite štirivektorski test na kratki seznam klinične podpore odločitvam in večina polja odpade. Llama in Mistral se lahko namestita hermetično, a njihovo poreklo učnih podatkov je nejasno — problem, ko klinična evalvacija MDR pričakuje, da opišete vnose v vsako napravo, ki obvešča diagnozo ali zdravljenje. Qwen in Kimi K2 nosita jurisdikcionalne breme, ki jih pravni timi bolnišnic ne bodo absorbirali. Popolnoma odprti modeli razreda Apertus ali skrbno dodatno učeni Mistral ali Llama forki, ki tečejo na WaveNode napravi v bolnišničnem obodu, so edine konfiguracije, ki preživijo preverjanje.

Komisijina julijska 2025 predloga za povzetke učnih podatkov GPAI zahteva pregled virov podatkov, vključno z velikimi podatkovnimi zbirkami in top domenskimi imeni, plus informacije o obdelavi podatkov za pomoč imetnikom pravic pri uresničevanju pravic po pravu EU ^[6]. Za bolnišnico, ki dodatno uči na patoloških poročilih ali radioloških zapiskih, je ta predloga zdaj kupčev problem, ne problem ponudnika modela.

Finance: DORA tiho izključuje večino gostovanih odprtokodnih API-jev

DORA obravnava vsako zunanjo inference končno točko kot ICT odvisnost tretje osebe, ki zahteva načrte za izhod, analizo koncentracijskega tveganja in pogodbene revizijske pravice. Posledica je neintuitivna: evropska banka prve ravni, ki poganja Mistral preko hiperskalerskega inference API-ja, je v slabšem regulativnem položaju kot ista banka, ki sama gosti iste uteži na evropski suvereni infrastrukturi. Odprte uteži, gostovane pri tretji osebi, so še vedno odvisnost tretje osebe. Odprte uteži, gostovane v vašem obodu, niso.

Tu se razgovor o ‘odprtokodni AI’ sesuje v vektor topologije gostovanja. DORA register banke se ne zmeni, ali je Mistral odprto-težinski; zanima ga, ali je ponudnik inference v dosegu kot kritični ponudnik ICT storitev, ali je izhod izvedljiv v regulativnih časovnicah in ali revizijske klavzule obstajajo. Samo-gostovane odprte uteži na suvereni infrastrukturi odgovorijo na ta vprašanja v enem koraku. Gostovani API-ji — odprto-težinski ali ne — jih ponovno odprejo.

MiFID II vodenje evidenc dodaja drugo omejitev: vsak izhod modela, ki obvešča regulirano dejavnost, mora biti rekonstruktibilen. To sili arhitekturo proti retrieval-augmented generation s sledenjem citatov in polnim revizijskim beleženjem — vzorec, ki ga WaveOps Enterprise implementira na vrhu samo-gostovanih odprtih uteži.

Javni sektor in pravo: Priloga III zahteva citatno sled

Namestitve v upravi pravosodja in javni upravi so privzeto visokotveganostne po Prilogi III pod AI zakonom, skupaj s kritično infrastrukturo in vzdrževanjem reda ^[3]. Odprte uteži so tu potrebne in globoko nezadostne. Obveznosti Priloge III vključujejo transparentnost do prizadetih oseb, označevanje vsebin za generativne izhode v strojno berljivi obliki in dokumentacijo, ki prenese revizijo nacionalnih organov ^[3].

Inženirska implikacija je konkretna: izhodi morajo nositi citatne sledi na ravni dokumenta, vezane nazaj na izvorne odstavke, številke strani in revizije dokumentov. Zaprti API-ji tega ne morejo dostaviti brez izpostavljanja regulirane vsebine ponudniku API-ja — kar ministrstvo ali sodišče ne bo avtoriziralo. Arhitektura, ki prenese, je RAG plus sledenje citatov na vrhu samo-gostovanega odprtega modela. WaveOps implementira ravno to: vsak odgovor referenca natančne izvorne dokumente, ki jih je model priklical, z revizijskimi metapodatki zajetimi za revizijsko sled. NEXUS, v produkciji pri ELES, poganja isti vzorec na podatkih kritične infrastrukture.

eIDAS zahteve podpisov, pokritost nacionalnih jezikov in pravila lokalizacije podatkov v sodnem sektorju nalagajo dodatne omejitve, ki jih večina neevropskih odprtih modelov ne naslavlja iz škatle. Kratki seznam za namestitve v javnem sektorju je posledično ožji, kot nakazuje trg odprtih uteži: v EU učen ali v EU dodatno učen odprtokodni model na evropski suvereni strojni opremi z aplikacijsko plastjo sledenja citatov, ovito okoli njega.

Dodatno učenje vas prevrne iz namestitvenega v ponudnika

Najdražja napaka v reguliranem sprejemu odprtokodne AI je predvidevanje, da podjetje ostane namestitelj po dodatnem učenju. Pod definicijo ponudnika AI zakona je vsakdo, ki trži AI sistem ali GPAI model pod svojim imenom, ponudnik — in substančna sprememba obstoječega modela sproži ta status ^[3]. Izjema, ki je zaščitila prvotno odprtokodno izdajo, ne zaščiti dodatno učenega derivata.

Ko je podjetje ponudnik navzdol, se julijska 2025 predloga učnih podatkov aplicira na njegov model, ne samo na zgornji ^[6]. To pomeni javni povzetek, ki pokriva preglede virov, velike podatkovne zbirke, top domenska imena in informacije o obdelavi podatkov — za notranji korpus, ki ga je banka ali bolnišnica uporabila za dodatno učenje. Večina reguliranih organizacij nikoli ni proizvedla takega dokumenta za notranje sredstvo, in pravno-preglední ciklus za to se meri v mesecih.

Vračunajte dokumentacijsko breme ponudnika navzdol v TCO pred izbiro modela, ne po njej. Za večino primerov uporabe je RAG nad osnovnim odprtim modelom — brez dodatnega učenja uteži — boljši položaj ravno zato, ker se izogne preobratu ponudnika. Podjetje ostane namestitelj, zgornji ponudnik obdrži GPAI obveznosti, in citatna sled obravnava revizijsko zahtevo. Zato WaveOps privzeto uporablja retrieval-grounded odgovore namesto obveznega dodatnega učenja.

Štiristopenjsko preverjanje za pogon pred nabavo

Pognajte vsakega kandidata — Apertus, Mistral, Llama, Teuken, Qwen, Kimi K2 — skozi isto zaporedje. Prvi korak: klasificirajte primer uporabe proti Prilogi III in relevantnem sektorskem režimu (MDR, DORA, eIDAS, sodni). Klasifikacija določi, ali je dostop do uteži zadosten ali so citatne sledi in inference na kraju samem obvezni.

Drugi korak: preverite poreklo učnih podatkov proti Komisijinini julijski 2025 predlogi ^[6]. Model, čigar zgornji ponudnik ne more ali noče objaviti skladnega povzetka, je model, čigar tveganje nasledite ob prvi namestitvi. Tretji korak: popravite topologijo gostovanja pred pogajanji o komercialah. Suvereni oblak, GPU na kraju samem ali hermetično odprta WaveNode naprava so različni skladnostni objekti z različnimi implikacijami DORA, NIS2 in EHDS. To obravnavajte kot binarno arhitekturno odločitev, ne namestitveno podrobnost.

Četrti korak: vnaprej se zavežite k ponudniškim artefaktom, če je dodatno učenje na zemljevidu. Osnutek povzetka učnih podatkov, avtorsko-pravna politika, evalvacijska oprema in plan spremljanja pred prvim dodatnim učenjem, ne po prvem revizijskem pismu. Kupci, ki pognajo to štiristopenjsko preverjanje, konvergirajo na ozek arhitekturni vzorec: odprte uteži, suvereno gostovanje, retrieval-grounded odgovori, citatne sledi in stikalo za hermetičnost, ki ga uradnik za skladnost lahko prevrne brez vložitve zahteve za spremembo pri ameriški ponudniku oblaka.

Evropskega reguliranega trga ne bo osvojil kdorkoli z najbolj permisivno odprto licenco. Osvojil ga bo kdorkoli lahko izroči uradniku za skladnost povzetek učnih podatkov, citatno sled in stikalo za hermetičnost isto popoldne.

Rezervirajte WaveNode sejo preverjanja: prinesite svoj kratki seznam, odnesite štirivektorsko ocenjevalno kartico — https://wavenetic.com/enterprise-ai-on-premise