Oblak proti lokalni AI ni pravo vprašanje. Zgradite usmerjevalni sloj.

Razprava o AI agentih med oblakom in lokalno rešitvijo je napačen okvir. Pravi okvir je usmerjevalni sloj s politikami, ki za vsako nalogo določi, kje se izvajajo sklepanje, spomin, orodja in podatki — ter obravnava to usmerjanje kot produkcijsko infrastrukturo, ne kot preference namestitve.

Vsaka ‘hibridna’ priporočila, ki trenutno krožijo, so površinska. Brez razvrščevalnika nalog, rezervne verige, ocenjevalne strukture in eksplicitnega upravljanja za obsege orodij in vrata za odobravanje je hibridnost samo dva silosa z geslom, nalepljenim čeznjih. Sledila bo arhitektura, ki jo lahko podjetniška ekipa prenese na arhitekturni pregled v ponedeljek: pravila klasifikacije, rezervno vedenje, pragovi stroškov in latence ter varnostne meje, ki celoto naredijo branljivo.

Agenti prelomijo krivuljo stroškov v oblaku prej, kot prodajalci priznavajo

Dokončanje pogovora je ena povratna pot. Agent je zanka: načrtuj, pokliči orodje, opazuj, ponovno načrtuj, ponovi, povzemi, eskalirај. Ta zanka pomnoži uporabo žetonov za red velikosti ali več za isto nalogo, vidno uporabniku, in množitelj se poveča, ko se na vrh dodata pridobivanje, klicanje funkcij in samoocena. Cene v oblaku, ki se zdijo razumne za dokončevanje pogovorov, postanejo kaznovalne pri obsegu agentov, presečišče med lokalno in oblakom pa se premakne veliko prej v krivulji delovne obremenitve, kot vam bodo povedali prodajalci.

Matematika latence se na isti osi še poslabša. Latenca lokalnega sklepanja se giblje v razponu 10–50 ms proti 100–500 ms+ za oblačne API-je ^[6]. En klic pogovora to režijo nevidno absorbira. Agent, ki opravi dvanajst klicev modela v enem uporabniškem obratu, jo plača dvanajstkrat, vsak ponovni poskus pa jo plača znova. Krivulja stroškov ni počasno vzpenjanje — je stopničasta funkcija, ki se sproži v trenutku, ko se načrtovalec postavi pred model.

Ekonomijo obravnavajte okoli ojačitve žetonov, ne po cenah na klic. Shramba se množi na enak način: 4TB NVMe disk stane približno 200 dolarjev, medtem ko oblačno shranjevanje običajno stane 30–50 % več na gigabajt, čeprav za približno 70 % zmanjša režijske stroške DevOps ^[3]. Ti kompromisi se rešijo v korist samo ene stopnje, ko se merijo pri obsegu agentov, ne pri obsegu pogovorov.

Usmerjajte po štirih oseh, ne po eni

Odločitev ni ‘kje živi model’. Je usmerjanje na nalogo po štirih neodvisnih oseh: občutljivost podatkov, proračun latence, strop zmožnosti in zahteve zanesljivosti. Vsaka os ima drug prag, pragovi pa se ne premikajo skupaj. Naloga je lahko občutljiva, vendar tolerantna na latenco, ali vezana na zmožnosti, vendar ločena od zraka, ali nizke občutljivosti, vendar kritična za zanesljivost. Zrušitev teh v eno samo odločitev ‘oblak ali lokalno’ proizvaja slabe arhitekture, ki danes zasmečujejo produkcijo.

Razčlenitev na štiri osi je prava struktura ^[5], vendar obravnavanje kot ocenjevalne rubrike, ki proizvede en odgovor za celega agenta, je napaka. Proizvede štiri odgovore — enega na podnаlogo — usmerjevalni sloj pa je tisto, kar jih usklajuje.

Agent ima štiri arhitekturne sloje — jedro sklepanja, spomin, orodja in konektorje ter politike in varovala ^[1] — vsak sloj pa se usmerja neodvisno. Sklepanje za regulirano nalogo pridobivanja se izvaja na lokalnem odprto-težinskem modelu, medtem ko spomin vztraja v šifriranem vektorskem skladišču na lokaciji. Ločen korak načrtovalca, ki potrebuje mejno zmožnost, se usmerja na upravljano stopnjo. Orodje, ki piše nazaj v sistem zapisov, ostane znotraj perimetra ne glede na to. Usmerjevalnik uveljavlja politiko. Lokacija modela je izhod politike, ne vhod.

Tveganje zasebnosti in varnostno tveganje nista isti problem

Večina objav o tej temi meša zasebnost in varnost ter daje nasvete, ki ne uspejo pri obeh. Urejata ju različna mehanizma. Tveganje zasebnosti — rezidentnost, izpostavljenost usposabljanja, deljenje podatkov s tretjimi osebami — ureja, kam podatki tečejo. Varnostno tveganje — vbrizgavanje pozivov, kompromitiranje dobavne verige vtičnikov, kraja poverilnic, obseg eksplozije datotečnega sistema — ureja, kaj sme agent početi, ko ima podatke. Usmerjevalni sloj uveljavlja oboje, neodvisno, preko različnih kontrol.

Stran dovoljenj agenta je tam, kjer je področje najšibkše. Raziskovalci so našli na stotine izpostavljenih instanc agentov z ničelno zaščito, 341 zlonamernіh vtičnikov in napade z vbrizgavanjem pozivov, zasnovane za izčrpavanje denarnic kriptovalut ^[2]. Noben od teh načinov neuspеha ni popravljen z izbiro lokalnega pred oblakom. Popravljajo jih obsegi orodij, ki omejujejo, katere funkcije lahko agent kliče, peskovniki, ki izolirajo izvajanje, ravnanje s skrivnostmi, ki drži poverilnice zunaj konteksta modela, vrata za odobravanje, ki zahtevajo človeško potrditev za destruktivna dejanja, in revizijski dnevniki, ki beležijo vsak poziv orodja s podatki, ki se jih je dotaknil.

Kontrole zasebnosti živijo eno stopnjo višje. Usmerjanje glede na občutljivost podatkov pomeni označevanje dokumentov in polj pri vnosu, vezavo oznak na politiko in zavrnitev posredovanja označene vsebine preko meje stopnje ne glede na to, kateri model je načrtovalec hotel poklicati. To ni enaka kontrola kot peskovništvo izvajalne okolice orodij, sistem, ki implementira eno brez druge, pa je na pol zgrajen. Usmerjevalni sloj je edino mesto, kjer se obe kontroli čisto sestavita, ker se nahaja med načrtovalcem in vsakim zunanjim učinkom.

Zanesljivost pomeni nekaj drugega za dolgotrajnega agenta

Klic pogovora, ki ne uspe, vrne napako človeku, ki poskuša znova. Zanka agenta, ki ne uspe med izvajanjem, pokvari stanje, pusti orodja na pol pozvana in zažge proračun na ponovnih poskusih, ki se morda nikoli ne zbližajo. Oblačni API-ji omejujejo hitrost sredi zanke. Model deprecirajo v četrtletnih ciklih. Spreminjajo sheme klicanja orodij brez opozorila. Ti načini neuspеha so nevidni pri obsegu pogovorov in katastrofalni pri obsegu agentov.

Lokalno sklepanje spada na kritično pot tudi, ko je oblak preferirana stopnja zmožnosti. Ne ker je lokalno vedno bolje — mejno sklepanje še vedno živi v modelih obsega oblaka — ampak ker usmerjevalni sloj brez lokalne rezerve nima odgovora, ko se ponudnik strežb omeji hitrost produkcijske zanke ali ukine model, okoli katerega je bil agent zgrajen. Rezervna veriga mora biti eksplicitna: primarna stopnja, degradirana stopnja, lokalna stopnja, z določenim vedenjem na vsakem koraku, vključno s tem, katere zmožnosti so žrtvovane in katere naloge so odložene.

Oblačno shranjevanje nativno obvladuje sočasnost več agentov preko zaklepanja, verzij in sočasnih branj, medtem ko se lokalna branja shranjevanja na istem stroju merijo v mikrosekundah ^[3]. Resen usmerjevalni sloj uporablja oboje: vroče RAG in kratkoročni spomin, streženа lokalno za latenco, trajno stanje sistema zapisov, hranjeno kjer koli zahtevajo sočasnost in politika rezidentnosti. Zanesljivost je lastnost odločitev usmerjanja, ne katere koli stopnje v izolaciji.

Referenčna arhitektura

Delujoči usmerjevalni sloj ima pet komponent, sistem, ki mu manjka katera koli, pa ni hibriden — je dva silosa z ovijalcem. Najprej razvrščevalnik nalog, ki pregleda prihajajoči zahtevek, podatkovne oznake, pripete nanj, in načrtovane klice orodij ter oddа odločitev usmerjanja na podnalogo. Drugič, pogon politik, ki veže podatkovne oznake na dovoljene stopnje in zavrne sestaviti načrt, ki bi kršil vezavo. Tretjič, rezervno verigo z eksplicitnimi pravili degradacije: katera stopnja obravnava katero podnalogo pod nominalnimi pogoji, kaj se zgodi, ko primarna stopnja vrne napake omejitve hitrosti ali sheme, katere podnaloge pa se zavrnejo, ko ni na voljo skladne stopnje.

Četrtič, ocenjevalno strukturo, ki izvrši same odločitve usmerjanja proti zlatim sledicam — ne samo izhodе modela, ampak celotno zaporedje, katera stopnja je obravnavala kateri korak, z asercijami o skladnosti politik, proračunih latence in stropih stroškov. Odločitve usmerjanja regresirajo na enak način kot pozivi in modeli ter potrebujejo enako testno disciplino. Petič, revizijski dnevnik stopnje citiranja, ki beleži vsak korak vsake zanke: kateri verdict razvrščevalnika je bil dosežen, katera stopnja je izvršila, kateri dokumenti so bili pridobljeni, katera orodja so se sprožila in kaj je pogon politik dovolil ali blokiral. Agent sklepa preko sklepanja, spomina, orodij in politik ^[1]; revizijski dnevnik mora pokrivati vse štiri.

Izhod te arhitekture ni diagram namestitve. Je pogodba na nalogo. Pridobivanje občutljivega dokumenta se usmerja na lokalni odprto-težinski model z lokalno dohvatnostjo na lokaciji in obsegom orodij, ki dovoljuje dostop samo za branje do označenega korpusa. Korak mejnega sklepanja na že prečrkovanih povzetkih se usmerja na upravljano stopnjo s strogim proračunom žetonov. Vračanje nazaj v ERP se usmerja preko vrat za odobravanje ne glede na to, kateri model ga je predlagal. Usmerjevalni sloj, ki vse te dosledno uveljavlja, je sredstvo.

Upravljane zasebne namestitve so tretji pas, ne nadomestek

Upravljan zasebni oblak je legitimen tretji pas. Regulirane ekipe, ki potrebujejo mejno zmožnost in močnejše kontrole rezidentnosti, kot jih ponujajo javni API-ji, imajo resnični primer uporabe zanj, usmerjevalni sloj pa ga mora obravnavati kot prvovrstno stopnjo poleg javnega oblaka in lokalno. Pretvarjanje, da ne obstaja, ekipe prisili v slabše kompromise.

Ni nadomestek za lokalno izvajanje, primeri, kjer nadomestitev ne uspe, pa so predvidljivi. Okolja, ločena od zraka, se po definiciji ne morejo usmerjati na upravljano stopnjo. Visokоobjemne ponavljajoče se delovne obremenitve — klasifikacija dokumentov, pridobivanje, rutinska RAG nad notranjim korpusom — amortizirajo lokalni GPU hitreje, kot se lahko ujame s katerim koli upravljanim cenovanjem, ker ojačitev žetonov agentskih zank žre ekonomijo na klic. Podatki, ki po zakonu ne smejo zapustiti stavbe, ne zapustijo stavbe ne glede na to, katere pogodbene obljube o rezidentnosti je upravljavec pripravljen podpisati.

Usmerjevalni sloj je tisto, kar naredi model treh pasov koherenten. Brez njega je upravljan zasebni oblak marketinška oznaka, ki ekipam omogoča odložiti arhitekturno delo. Z njim upravljan zasebni postane ena ciljnih usmerjanj med tremi, izbrana na nalogo, ki jo ureja isti pogon politik in revidira preko istega dnevnika.

TCO delovni list, ki vam ga prodajalci ne bodo pokazali

Branljiv stroškovni model za delovne obremenitve agentov ima pet vhodov, večina kalkultorjev prodajalcev pa prikaže dva. Vhodi so: ojačitev žetonov iz zank orodij in ponovnih poskusov, amortizacija GPU-ja preko triletnega horizonta, elektrika, prihranite ali porabite ure DevOps-a in implicitni strošek deprecacije modela — inženirsko delo, potrebno vsakič, ko ponudnik stromov ukine model, okoli katerega je bil agent zgrajen. Izpustite katerega koli in matematika se nagne proti tisti stopnji, za katero je bil kalkulator zasnovan za prodajo.

Poženite matematiko pošteno in lokalno zmaga za veliko širši pas delovnih obremenitev, kot predlaga javni diskurz. Strojna oprema za shranjevanje je poceni — 4TB NVMe disk stane približno 200 dolarjev, oblačno shranjevanje pa zmanjša režijske stroške DevOps za približno 70 % ^[3]. Ta prihranek DevOps-a je fiksna, medtem ko se ojačitev žetonov povečuje z uporabo. Mimo praga delovne obremenitve račun za žetone dominira nad vsem drugim.

Ekipe, ki obravnavajo oblak proti lokalnemu kot izbiro nabave, bodo še naprej obnavljale svoj sklad vsakič, ko se model deprecira ali regulator posodobi pravilo o rezidentnosti. Ekipe, ki gradijo usmerjevalni sloj, lastijo svojo infrastrukturo agentov za naslednjih deset let. Arhitektura ni eksotična: razvrščevalnik, pogon politik, rezervna veriga, struktura eval in revizijski dnevnik — sestavljen namerno, nameščen na infrastrukturo, ki jo nadzoruje podjetje, in obravnavan kot izdelek namesto preference namestitve.

Rezervirajte arhitekturni pregled z Wavenetic za namestitev usmerjevalnega sloja na vaši infrastrukturi — https://wavenetic.com