Stroški lokalne AI: TCO analiza za finančne direktorje, ne le cenik GPU-jev
Podroben TCO model za lokalno AI: CapEx, OpEx, pripravljenost objektov, ciklusi posodabljanja in matematika izkoriščenosti, ki dejansko določa stroške na token.
Če vprašate deset ponudnikov, kaj stane lokalna AI, boste dobili deset cenikov GPU-jev. To ni TCO. Finančni direktor, ki podpisuje večletno kapitalsko zahtevo, potrebuje model, ki preživi odbor za revizijo: vsako postavko, vsako predpostavko, vsak cikel obnove in imenovalec, ki povezuje izdatke z dejanskimi rezultati.
Iskren odgovor je, da je lokalna AI cenejša od oblačne za trajne obremenitve z visoko izkoriščenostjo in dražja za občasne ali eksperimentalne [2][4]. Vendar ta razdelitev zaobide dejansko vprašanje kupca. Sledita podrobna struktura stroškov in matematika, ki določi, ali se naložba izplača, ter realnosti objektov, ki jih večina analiz izpušča.
Postavke, ki jih večina TCO modelov tiho izpušča
Lenovo-va TCO študija iz 2025 je nenavadno odkrita o tem, kar njihova primerjava izključuje: upravljane storitve, shranjevanje podatkov, prenos podatkov, licenciranje OS in aplikacij, posodabljanje, omrežja, IT osebje in vzdrževanje programske opreme [4]. Preberite ta seznam še enkrat. To je večina stroškov delovanja pravega sistema. TCO, ki jih ignorira, je le cenitev strojne opreme z dodatno preglednico.
Zanesljiv model stroškov lokalne AI ima tri plasti. CapEx pokriva GPU-je, strežnike, NVMe storage, omrežno infrastrukturo, omare, PDU-je, UPS in morebitne električne ali hladilne nadgradnje, ki jih objekt potrebuje za gostovanje gruče. OpEx pokriva elektriko, hladilno obremenitev (PUE), pogodbe za podporo strojni opremi, programske licence, vzdrževanje modelov in izvajalne platforme, varnostna orodja ter ure osebja za delovanje sistema. Stroški implementacije — pogosto najbolj podcenjeni — pokrivajo integracijo z identitetnimi sistemi, repozitoriji dokumentov, revizijskimi sistemi, upravljanje sprememb in 30- do 90-dnevno delo, da gruča od namestitve pride do odgovorov, katerim uporabniki zaupajo.
Posebej stroški razvoja aplikacij in modelov ležijo nad infrastrukturnim TCO in jih nikoli ne smemo mešati [7][8]. Kupec, ki ocenjuje infrastrukturo lokalne AI, potrebuje čist infrastrukturni podatek. Drugače postane primerjava z oblačnim računom primerjava hrušk in jabolk.
CapEx: kar dejansko kupite na dan ena
Strojna oprema je glavna postavka, vendar je seznam materialov daljši od GPU oznake. Produkcijska lokalna AI enota vključuje pospeševalnike, gostiteljske CPU-je, ECC pomnilnik dimenzioniran za KV predpomnilnik in embeddings, NVMe storage za vektorske indekse in zbirke dokumentov ter omrežje z nizko latenco za večvozliščno sklepanje ali fine-tuning. Dodajte redundantne napajalce, ToR stikala, out-of-band upravljanje in rezervne dele — običajno 10 do 15 odstotkov flote — da ena napaka ne podre produkcije.
Nato pridejo stvari, ki živijo zunaj ohišja. Gostota moči omar za moderne GPU strežnike pogosto presega to, za kar so bile starejše podjetniške dvorane ožičene, kar pomeni nove PDU-je, morda nove tokokroge in v nekaterih stavbah pogovor s komunalnim podjetjem o transformatorju. Hlajenje je druga ovira: zračno hlajene zasnove nad približno 30 kW na omaro postanejo problematične, tekoče hlajenje pa ima svoje stroške prenove. Uvation ocenjuje začetno nastavitev namenskega AI podatkovnega centra na 15.000 do 50.000 dolarjev kot srednjo pot med polnim lastništvom in porabo pri hyperscaler-jih [2], vendar ta številka hitro raste z brojem omar in gostoto.
Amortizacija in disciplina obnove štejeta toliko kot nalepka s ceno. GPU-ji in AI strežniki naj se amortizirajo v 3- do 5-letni uporabni dobi, z načrtom obnove, predvidenim že od prvega leta. TCO, ki predvideva sedemletno držanje pospeševalne strojne opreme, tiho podcenjuje letne stroške.
OpEx: ponavljajoči račun, ki ga nihče ne navede vnaprej
Elektrika in hlajenje sta očitna ponavljajoča stroška in tista, ki jih konkurenti najbolje modelirajo [4]. PUE predpostavke so pomembne: objekt z 1,5 PUE plača 50 odstotkov več za hlajenje in režijske stroške na vat računanja kot tisti z 1,2. Za gručo, ki neprekinjeno povleče 30 do 60 kW, je razlika šestmestna vsako leto, preden se kdo dotakne modela.
Programska oprema in podpora sta stroška, ki presenetita finančne ekipe. Pogodbe za podporo strojni opremi običajno znašajo 8 do 15 odstotkov nabavne cene letno. Operacijski sistem, virtualizacijska ali kontejnerska platforma, opazovanje in varnostna orodja imajo vsak svojo licenco. Odprto-težinski modeli se izognejo licenciranju na token, vendar izvajalna platforma, orkestracija in RAG plast še vedno potrebujejo vzdrževanje — posodobitve, aktualizacije modelov, ponovno indeksiranje embeddings in cevovode sledenja citatov, ki ohranijo revizijske sledi nedotaknjene.
Osebje je tam, kjer se model pogosto poruši. Resna namestitev lokalne AI potrebuje pokritost MLOps, platforme in varnosti. Nakup ključne rešitve z izvajalno platformo, modeli in podporo ponudnika to skrči — odgovornost enega ponudnika spremeni tri opise del v eno operativno pogodbo — vendar se strošek ne izgubi, le premakne se iz števila zaposlenih v postavko podpore.
Formula: strošek na koristno enoto rezultata
To je model, ki ga je vredno postaviti pred finančnega direktorja: Letni TCO ÷ Koristen rezultat. Števec je (CapEx ÷ leta obnove) + letna elektrika in hlajenje + podpora in licence + osebje in delovanje + režijski stroški objekta. Imenovalec je enota, ki jo vaše podjetje dejansko porabi — dostavljene GPU-ure, postrežene žetone, indeksirane in poizvedovane dokumente ali odgovore z citati.
NVIDIA-jev argument je tisti, ki ga večina lokalnih analiz spregleda: pot do nižjega stroška na token je imenovalec, ne števec [6]. Dve gruči z identično strojno opremo in računi za elektriko lahko proizvedeta povsem različne številke stroška na token, odvisno od paketiranja, kvantizacije, sočasnosti in trajne izkoriščenosti GPU. Gruča z 25-odstotno izkoriščenostjo stane štirikrat več na dostavljeni token kot ista gruča z 80-odstotno izkoriščenostjo.
Zato je prelomnica oblačno-proti-lokalno odvisna od delovne obremenitve. Uvation-ova TCO primerjava postavlja hyperscaler-je pred v 1- do 3-letnem oknu, približno primerljive v 3 do 5 letih in lokalne naprej po petih letih za dosledne obremenitve z visoko povpraševanjem [2]. ZySec modelira tipično podjetje s 500 intelektualnimi delavci na 1,6 do 2,2 milijona dolarjev v petletnem oblačnem TCO, ki se dvigne nad 2,5 milijona z velikim izhajanjem [3]. Pomembna je oblika krivulje: oblačno je linearno glede na uporabo, lokalno je večinoma fiksno. Visoka izkoriščenost zravna strošek na token, nizka ga kaznuje.
Pripravljenost objektov: tveganje urnika, ki postane strošek
Dobavni časi za elektriko in hlajenje so tihi uničevalci proračunov. Novi tokokrog, nadgradnja transformatorja ali prenova tekočega hlajenja lahko traja mesece. V tem času GPU-ji bodisi ležijo v zabojnikih in se amortizirajo bodisi tečejo zmanjšano, imenovalec stroška na token projekta pa je umetno majhen, ker gruča še ne proizvaja.
Pripravljenost objekta ima trd kontrolni seznam: gostoto moči omar na omaro, skupno razpoložljivo kW na ravni vrste in prostora, rezervo hladilne kapacitete, redundantne poti napajanja, požarno zaščito, združljivo z visokogostotnim računanjem, strukturno obremenitev tal ter načrt električnega vzdrževanja z rezervnimi deli. Izpustite katerokoli od teh v fazi načrtovanja in se strošek pojavi pozneje kot sprememba naročila ali zgrešen datum uvedbe.
Kako izgleda verodostojen model stroškov lokalne AI
Zanesljiv model je revizijski, ne aspiracijski. Vsaka postavka je dokumentirana — ponudbe prodajalcev za strojno opremo, komunalne tarife za elektriko, pogodbene cene za podporo, polno obremenjene plače za osebje, izmerjeni PUE za objekt. Vsaka predpostavka je spremenljiva: cikel obnove, stopnja izkoriščenosti, sočasni uporabniki, povprečni žetoni na poizvedbo, rast obsega dokumentov.
Stroški usposabljanja so vredni obdrževanja v polju vidnosti kot preverjanje razumnosti. Lenovo opozarja, da je bil Llama 3.1 usposobljen na več kot 15 bilijonov žetonov v 39,3 milijonah GPU-ur z hipotetičnim ekvivalentnim stroškom AWS P5 H100 nad 483 milijoni dolarjev samo za oblačno računanje, brez shranjevanja podatkov za usposabljanje [4]. Večina podjetij ne usposablja mejnih modelov. Izvajajo RAG nad svojimi dokumenti na odprto-težinskih modelih, kjer je prava velikost gruče majhna, izkoriščenost stalna in matematika stroška na odgovor ugodna — če je TCO model pošten.
Lokalna AI ni poceni in ni čarobna. To je kapitalna odločitev z znano obliko: visoka začetna naložba, predvidljiv ponavljajoči strošek in krivulja stroška na rezultat, ki nagrajuje izkoriščenost, rezultate na nivoju citatov in sklad, ki za delovanje ne potrebuje petih ponudnikov. Zgradite model na tak način in odgovor na ‘koliko bo to stalo’ preneha biti ugibanje.
Pogovorite se z našo ekipo o podrobnem TCO modelu za vašo delovno obremenitev — https://wavenetic.com
Viri
- On-Premise AI Total Cost of Ownership (TCO)
- Cost of AI Server: On-Prem, Data Centers & Hyperscalers
- Total Cost of Ownership: Cloud AI vs On-Premises AI
- On-Premise vs Cloud: Generative AI Total Cost of Ownership (2025 Edition)
- On-Premise vs Cloud: Generative AI Total Cost of Ownership (2026 Edition)
- Rethinking AI TCO: Why Cost per Token Is the Only Metric That Matters
- AI App Development Cost + Team Calculator
- The Cost of Implementing AI in a Business: A Comprehensive Analysis