Ekonomika lokalne GPU inferencje: Kritična točka je izkoriščenost, ne cena strojne opreme

Ekonomika lokalne GPU inferencje je odvisna od trajnostne izkoriščenosti in oblike delovne obremenitve — ne od cene GPU ali tarif ponudnika v oblaku. RTX 4090 za 1.600 USD, ki deluje s 3% izkoriščenostjo, je dražji na aktiven žeton od vseh ponujenih API-jev na trgu. Vsaka preglednica, ki to dejstvo zanemarja, sodi v koš.

Razprava lokalno-proti-oblaku, kakor se ponavadi vodi, je napačen okvir. Operacijski model, ki zmaga, je hibridno usmerjanje: regulirane in visokoobremenilne delovne obremenitve ostajajo lokalno, kjer je izkoriščenost realna in podatki nikoli ne zapustijo vaših prostorov, medtem ko nepredvidljiv, maloobmeni, interaktivni promet porabi tujo GPU. Ta objava podaja kritično mejo izkoriščenosti, proračun VRAM-a na sočasno zahtevo in pravilo usmerjanja, ki odloči, katere delovne obremenitve spadajo na lastno infrastrukturo in katere je ne bi smele nikoli dotakniti.

Povračilo na osnovi cene brez številke izkoriščenosti je fikcija

Vsaka predstavitev nabave GPU ponavlja isti izračun: kupimo kartico, primerjamo z najemom GPU v oblaku, razglasimo povratno dobo, podpišemo naročilo. Pogosto citirani vodnik za leto 2026 postavlja povračilo RTX 4090 proti najemu A100 na približno 3.500 ur aktivne uporabe — okoli 146 dni neprekinjene obratovanje 24/7 ^[3]. Ta številka je smiselna le, če GPU deluje 24/7 in opravlja koristno delo. Skoraj nikoli ne.

Realistična izkoriščenost za lokalno namestitev posamezne skupine niha med 2% in 5% dejanskega časa. Delovni čas, premori med poizvedbami, vikendi, prazniki in dejstvo, da ljudje ne ustvarjamo žetonov s konstantno hitrostjo pomenijo, da se strojna oprema, ki naj bi se povrnila v teoretičnih 146 dneh, v praksi povrača leta — ali se sploh nikoli ne povrne, preden naslednja generacija GPU naredi zastarel. Pri tipični lokalni uporabi z batch-size-1 lahko že račun za elektriko presega stroške gostovanega nivoja za 25 USD na mesec ^[6]. Kartica ne le ne povrača svojega capex-a; dejansko izgublja denar, medtem ko miruje na mizi.

Pošten izračun lokalne inferencje se začne s številko izkoriščenosti, ne s ceno strojne opreme. Če ne morete utemeljiti 40%+ trajnostnih GPU-ur proti izmerjeni povpraševanje, vaš strošek na aktiven žeton tiho presega katerikoli API, ki ste ga skušali nadomestiti.

Težišča modela se prilegajo. Delovna obremenitev ne.

Najpogostejša obdukcija lokalne inferencje ni »model se ni prilegal« — ampak »model se je prilegal odlično, vendar smo lahko služili le enemu uporabniku hkrati.« Ta način odpovedi živi v KV cache-u, za katerega skoraj noben model nabave ne predvideva. Kontekstno okno 100K žetonov za RAG nad notranjimi pogodbami in dokumenti o skladnosti porabi približno 25 GB VRAM-a le v KV cache-u — okoli tretjino 80 GB A100, preden so naložene težišča modela ali kakršnakoli druga obremenitev ^[1].

Odtis težišč samo za inferenco je lahek del: približno 14 GB za 7B model, 26 GB za 13B, 60 GB za 30B ^[3]. Dolgokonkretni RAG — kar podjetja dejansko želijo za lokalno inferenco — je obvladovan s cache-om na zahtevo, ta cache pa se linearno povečuje s sočasnostjo. Namestitev, ki izgleda udobna pri enem uporabniku, trči v trd strop pri dveh sočasnih zahtevah, ko se kontekstna dolžina poveča, ne glede na to, koliko prostora so se zdela imeti težišča. Upravljanje cache-a, ne število parametrov, je kjer se bije naslednji krog zmanjšanja stroškov ^[7].

Dimenzionirajte lokalno infrastrukturo po VRAM-u na sočasno zahtevo pri vaši ciljni kontekstni dolžini, ne po velikosti modela. Če te številke ne morete navesti, nimate namestitve — imate demo.

Batch size 1 je najdražji način poganjanja GPU, ki ga že imate

Interaktivna inferencja posameznih zahtev je najslabša ekonomska konfiguracija za katerikoli GPU, v lasti ali najet. Batch size 1 minimizira latenco za uporabnika, vendar pusti večino silicija v mirovanju med žetoni; veliki batch-i počno nasprotno, dvigajo prepustnost in znižujejo stroške na zahtevo na račun latence ^[2]. Ponudniki v oblaku so to že internalizirali z razdelitvijo istega modela na nivoje latence — cenejši visokobatch servis okoli 30–80 žetonov/s in premijski nizobatch nivo nad 100 žetoni/s, pri čemer Anthropic-ov hitrejši nivo teče približno 2,5-krat hitreje po 3-kratni ceni ^[2].

Na infrastrukturi v lasti je isti kompromis neviden, dokler ne prispe račun za elektriko. Večina lokalnih uporabnikov poganja batch size 1, in pri batch size 1 lahko že poraba energije prekosi gostujoči nivo za 25 USD na mesec ^[6]. Napajanje, hlajenje in amortizirani čas neaktivnosti prevladujejo obratovalne stroške robne inferencje, ko upoštevate realistične delovne cikle ^[8].

Lastništvo GPU vas ne osvobodi batch ekonomike. Skriva jo v drugi postavki.

Ekonomska enota so žetoni na mesec na nivo latence, ne dolgari na GPU

Vsak pogovor o nabavi, ki se začne z »kateri GPU naj kupimo«, že zbega s tire. Enota, ki šteje, so žetoni na mesec, segmentirani po nivoju latence in razredu občutljivosti podatkov. Obdobja povračila pristajajo v nekaj mesecih za majhne modele, okoli dveh let za srednje modele in približno pet let za velike modele — lokalna namestitev pa je najbolj smiselna za organizacije, ki obdelujejo vsaj 50 milijonov žetonov mesečno ali delujejo pod strogimi mandati rezidence podatkov ^[5].

Pod to količino je lastništvo strojne opreme odločitev suverenosti, ne stroškov. To je legitimen razlog — GDPR, klasificirani podatki, pogodbene klavzule o rezidenci podatkov, air-gapped okolja — vendar mora poslovni primer to poimenovati odkrito. Pretvarjanje, da je delovna obremenitev 5 milijonov žetonov na mesec cenejša na lastnem siliciju kot na gostovanem API-ju, povzroči slabo nabavo, premalo izkoriščene grupe in finančnega direktorja, ki šest mesecev pozneje nehne zaupati številkam AI-tima. Nad 50 milijoni žetoni mesečno s predvidljivim povpraševanjem se matematika obrne in lokalna inferencja postane branljiva že iz stroškovnega vidika.

Hibridno usmerjanje premaga ideološki cloud-exit

Arhitektura, ki zmaga pri ekonomiki inferencje, ni popolnoma lokalna in tudi ni popolnoma v oblaku. Je usmerjevalni sistem. Regulirane delovne obremenitve — karkoli se dotika osebnih podatkov, pogodb, financ ali intelektualne lastnine, ki ne sme zapustiti jurisdikcije — ostajajo na lastnih GPU. Visokoobremenilne, predvidljive delovne obremenitve s stabilno sočasnostjo ostajajo na lastnih GPU, ker tam deluje matematika izkoriščenosti. Vse ostalo — nepredvidljiva notranja orodja, eksperimentalne funkcionalnosti, batch naloge drugega nivoja latence, občasni izbruhi nad lokalno zmogljivostjo — usmerja k gostovanim API-jem ali najeti GPU zmogljivosti, kjer plačate le za žetone, ki jih dejansko porabite.

Inferencijski promet je raztresen, vsaka enonivovska arhitektura pa bodisi prekomerno pripravi za vrh bodisi odpove pri vrhu ^[4]. Podjetniška različica je preprostejša: grupa, dimenzionirana za vaš najslabši ponedeljek zjutraj, sedi pri 4% izkoriščenosti v sredo popoldne. Grupa, dimenzionirana za sredo popoldne, duši v ponedeljek. Usmerjanje reši oba problema z ločitvijo predvidljive, občutljive osnovne obremenitve od volatilne, necčutljive prelivne — brez prisiljevanja k verski zavezi kateri koli strani razprave.

Pravilo: lokalno za regulirane podatke, lokalno za vsako delovno obremenitev nad svojo mejo izkoriščenosti, gostovano za vse drugo. Obravnavanje odločitve kot binarno povzroča tako premalo izkoriščene grupe kot katastrofe skladnosti.

Runtime izboljšave, ne nov silicij, premikajo stroškovno krivuljo

Stroškovna krivulja za lokalno inferenco se ne premika zaradi novih generacij GPU. Premika se zaradi runtime izboljšav, ki spreminjajo, koliko sočasnih zahtev lahko obstoječa strojna oprema služi na nivoju latence, ki ga stranke dejansko želijo. Kontinuirano batch-iranje spremeni problem batch-size-1 v problem razporejanja: prihajajoče zahteve se na letu pridružijo aktivnemu batch-u namesto čakanja na fiksno okno, dvignejo efektivno prepustnost brez potiskanja uporabnikov v vrsto z višjo latenco ^[2].

Kompresija KV-cache je večji vzvod. Googlov TurboQuant pristop kompresira KV cache za 6-krat, z nevtralnimi rezultati kakovosti pri 3,5 bitih in le mejno degradacijo pri 2,5 bitih — brez potrebe po ponovnem treningu ^[1]. Uporabljeno na scenarij RAG s 100K žetoni to pomeni razliko med dvema sočasnima uporabnikoma in dvanajstimi na istem A100. Redkost, MoE usmerjanje in kompresija cache-a so tam, od koder prihajajo zmanjšanja stroškov na žeton, ne iz skrčitve čipov ^[7]. Nakup GPU danes proti runtime skladu izpred dvanajst mesecev zaklene napačno stroškovno krivuljo.

Zato Wavenetic prodaja sklad, ne GPU

Doseganje meje izkoriščenosti, ki naredi lokalno inferenco ekonomično, ni problem strojne opreme. Je problem runtime-a, batch-iranja, RAG-cevovoda in citirnega sloja — ti komponenti pa morajo biti skupaj načrtovane. GPU brez kontinuirnega batch-iranja teče pri batch size 1. RAG cevovod brez discipline KV-cache omejuje sočasnost na dva uporabnika. Citirni sloj, pripet po namestitvi, nikoli ne proizvede revizijske sledi, ki jo compliance-tim dejansko potrebuje. Nakup GPU in upanje, da bo ostalo sledilo, je način, kako organizacije končajo z najslabšim iz obeh ekonomskih modelov: capex lastništva in stroškom na žeton premalo izkoriščenega oblaka.

Wavenetic dostavi celoten sklad — WaveNode infrastrukturo, runtime za lokalno inferenco, odprto-težinske modele, RAG in citirni sloj ter evropsko podporo — predhodno konfiguriran za dosego produkcije v manj kot 30 dneh. Namestitev teče na lastni infrastrukturi stranke, vključno z air-gapped okolji, brez oblačnih API-jev in brez klicev modela tretjih oseb. Vsak odgovor vključuje citate do izvornih dokumentov, strani, revizij in popolno revizijsko sled — ker delovne obremenitve, ki ekonomsko upravičijo lokalno inferenco, ponavadi jo tudi pravno zahtevajo.

Organizacije, ki bodo zmagale pri ekonomiki inferencje leta 2026, ne bodo tiste z najcenejšimi GPU ali najcenejšimi API-pogodbami. Bodo tiste, ki so pošten izmerile izkoriščenost in usmerile vsako delovno obremenitev k nivoju, kamor dejansko spada.

Dimenzionirajte sklad lokalne inferencje po vaši dejanskih delovni obremenitvi — pogovorite se z našo ekipo — https://wavenetic.com