Kimi K2 za evropske CIO-je: pravilo štirih poti namestitve

Kimi K2 postane možnost za podjetja, ko ga nehate obravnavati kot problem namestitve modela in ga začnete obravnavati kot problem suverenosti, zanesljivosti MoE in upravljanja. Vsa trenutna navodila — Together-jeva, Clarifai-jeva, GMI-jeva, Kimi-K2.org priročnik — rešujejo lahek del: izberete GPU škatlo, vstavite vLLM ukaz, uporabite OpenAI-kompatibilno končno točko. Nobeno ne pove evropskemu CIO-ju, kaj storiti z licenco Modified-MIT, vprašanjem izvora podatkov Moonshot ali obnašanjem rep-latence pri 8-od-384 usmerjanjem ekspertov pod 300-stopenjskim agentnim prometom.

Ta objava je namenjena vodji platforme, ki že ve, kaj je 1T MoE, in mora zdaj napisati naročilni memorandum. Odidete s štiripotnim odločitvenim okvirom — upravljani API, brezstrežniška končna točka, namenski gruči, zračno-ločena samo-namestitev — zasidranim na razred delovne obremenitve, držo suverenosti in prelomno točko TCO, ki preživi pregled finančnega direktorja.

Seznam specifikacij K2, ki ga vsi ponavljajo — in dve številki, ki dejansko štejeta

Kimi K2 je model Mixture-of-Experts z 1 triljon parametrov, z 32B aktivnimi parametri na žeton, usmerjanjem 8 od 384 ekspertov in usposobljen na 15,5T žetonih ^[1]. Dosega 65,8% na SWE-bench Verified in 53,7% na LiveCodeBench v6 ^[1], zato vsak blog prodajalcev vodi z agentnim kodiranjem. To obravnavajte kot osnove. Pove vam, da je K2 v razgovoru o mejnih modelih. Ne pove vam ničesar o tem, ali ga lahko poganjate.

Dve številki, ki upravljata vašo odločitev o namestitvi, sta 1,8TB in 32B. Prva je odtis uteži v block-FP8 ^[2]^[8] — fizična stvar, ki jo gostite, zrcalite, pregledujete licenco in (če greste zračno-ločeno) fizično prinesete v perimeter. Druga je število aktivnih parametrov na žeton, ki določa ekonomiko GPU na žeton: stroški sklepanja K2 se obnašajo bližje 32B gostemu modelu kot 1T modelu. Ta sam dejstvo naredi samo-gostovanje ekonomsko upravičeno nasploh.

1,8TB izključuje polovico trikov kvantizacije potrošniške ravni, ki jih predlagajo LocalLLaMA niti. 32B aktivnih pojasnjuje, zakaj dva H100 in hitra NVLink struktura služita pravi delovni obremenitvi — in zakaj en A100 80GB ne more, ne glede na to, kaj trdi priročnik ^[2].

Štiri drže namestitve, eno pravilo oblikovano po delovni obremenitvi

Standardno uokvirjanje — upravljani API, brezstrežniška končna točka, namenski GPU gruči, samo-gostovano — običajno narišemo kot cenovne stopnice. To ni cenovna lestvica. To je lestvica suverenosti, in pravilno stopnico narekuje razred delovne obremenitve, ne velikost podjetja. Slovenski samostojni podjetnik, ki gradi stransko projektno kodirno-agentno orodje, in Tier-1 banka, ki poganja podporo strankam na K2, lahko sedita na različnih stopnicah iz razlogov, ki niso povezani s številom zaposlenih.

Prvi razred: eksperimentiranje, prototipiranje, majhno-količinska notranja orodja. Together-jeva končna točka za $1/$3-na-milijon-žetonov ^[1] ali Moonshot-jev lastni kimi.com OpenAI-kompatibilni API ^[8] je pravilna. Podatki zapustijo vaš perimeter, vendar so podatki ne-občutljivi in stroški inženiringa samo-gostovanja niso upravičeni pod ~500M žetoni/mesec.

Drugi razred: klepet s strankami z vhodi mešane občutljivosti. Brezstrežniška namenska končna točka z EU-rezidentnim ponudnikom plus striktna plast redakcije pozivov je upravičena — dokler je vaša ekipa za razvrščanje podatkov ne blokira, kar običajno storijo.

Tretji razred: dolgokontekstni RAG in serijska analiza dokumentov nad reguliranimi korpusi. Namenski GPU gruči — v lasti ali najet, vendar s podpisanim DPA in privezano strojno opremo — si tu zasluži svoje mesto.

Četrti razred: agentno kodiranje in orkestracija orodij znotraj reguliranega perimetra, ali karkoli, kar se dotika materialnih ne-javnih informacij. Zračno-ločena samo-namestitev je edini pošten odgovor in to je drža, ki jo Wavenetic dostavlja kot WaveNode napravo. Najprej klasificirajte podatke, nato izberite držo. Izbira drže najprej in racionalizacija klasifikacije naknadno je način, kako se naročilni memorandumi zavrnejo.

TCO prelomna točka: kje samo-gostovan K2 premaga Together pri $1/$3 na milijon žetonov

Together objavlja Kimi-K2-Instruct pri $1,00 na 1M vhodnih žetonov in $3,00 na 1M izhodnih žetonov ^[1]. Ta cena je sidro, ki ga vsak finančni direktor vrže na predlog samo-gostovanja. Vseeno izračunajte matematiko. Namestitev dveh vozlišč H100, ki izpolnjuje K2 minimume ^[2], pristane med €18k in €28k na mesec vse-vključeno po Evropi — najem GPU, energija, omrežje, dežurstvo, opazovanje — odvisno od tega, ali lastite ali najemete silicij.

Pri mešanju 1:3 vhod/izhod je Together-jeva efektivna cena približno $2,50 na milijon žetonov. Prelomna točka proti €22k/mesec samo-gostovanju pristane med 800M in 1,5B mesečnimi žetoni, z razponom gnano s izbiro kvantizacije (block-FP8 proti INT4) in uporabo (vztrajni proti sunkoviti). Pod 800M žetoni upravljani API zmaga na vseh oseh razen suverenosti. Nad 1,5B se matematika močno obrne — in se še naprej obrača, ker agentne delovne obremenitve napihnejo števila žetonov za 5–20× nad klepetnimi obremenitvami skozi sledi klicev orodij in verige sklepanja.

Trije popravki, ki jih preglednica skriva. Izhodnji in poziv-ponovni promet — ponovno pošiljanje istega 50k-žetonskega konteksta 300-krat na agentno sejo — uničuje TCO upravljanega-API hitreje kot kateri koli drug dejavnik. Suverene-EU upravljane končne točke ne ujemajo Together-jevega severno-ameriškega cenovnika ^[1], zato evropska prelomna točka sedi nižje od naslovne številke. In trenutek, ko vaš revizor zahteva potrdilo o toku podatkov, ki ga nobena upravljana K2 končna točka ne more proizvesti, se TCO razprava konča ne glede na to, kje se črta križa. Oglejte si naše on-premise proti oblačno klasifikacijsko pravilo za okvir.

Problem rep-latence MoE, ki ga nobena vLLM navodila ne omenja

K2-jevo 8-od-384 usmerjanje ekspertov ustvarja vzorce obremenitve, ki jih priročniki gostih modelov ne napovedujejo. Ko kodirni agent naredi 300 zaporednih klicev orodij znotraj ene seje, eksperti, aktivirani pri klicu 47, niso eksperti, aktivirani pri klicu 248, in rezultirajoča migracija vročih točk proizvaja p99 špice, ki se nikoli ne pokažejo v merskem okviru. SWE-bench rezultati ^[1] so merjeni en poziv naenkrat. Vaš SLA je merjen pri 99. percentilu več-urnega agentnega zagona.

Uradna navodila za namestitev ^[6] so nedvoumna o vzvodi, ki štejejo: privijte SGLang na v0.5.10 ali pozneje, privijte vLLM na 0.19.1 za stabilno produkcijo, in nastavite zastavice parserja --tool-call-parser kimi_k2 in --reasoning-parser kimi_k2. Preskočite katerokoli od teh in sledi klicev orodij postanejo malformiran JSON pod obremenitvijo — način odpovedi, ki se ne pokaže v dimnih testih, ker dimni testi ne poganjajo 300-stopenjskih agentnih sledi. TensorRT-LLM je motor za najnižje-latentno podjetniško strežbo ^[2], vendar je izbira motorja dolvodna od pravilnega nastavljanja parserjev in privijanja verzij.

Zahteva za opazovanje, ki sledi, je ne-pogajljiva: števci aktivacije po ekspertih, entropija usmerjanja po žetonih in histogrami globine čakalne vrste razdeljeni po razredu zahtev. Če vaša platforma za sklepanje ne more pokazati, kateri eksperti se nasičujejo med agentnim sunkom, ne morete diagnosticirati p99 incidenta, ki zbudi vašega dežurnega inženirja ob 03:00.

Vprašanja Modified-MIT in Moonshot-izvora, ki jih bo evropska nabava postavila

Odprte uteži niso odprta nabava. Kimi K2 se dostavi pod licenco Modified-MIT s klavzulo komercialne-atribucije, ki se sproži nad določenimi pragovi uporabe. Vaša pravna ekipa jo bo prebrala, preden vaša ekipa za platforme konča vLLM meritev, in odgovor ni isti za klic upravljanega API kot za redistribucijo fino-nastrojenih uteži hčerinski družbi. Potrebuje pisno mnenje, podpisano, priloženo naročilni kartici.

Drugo vprašanje je težje. Moonshot AI je laboratorij kitajskega izvora, in uteži — distribuirane prek Hugging Face v block-FP8 formatu ^[8] — so bile usposobljene na korpusu, ki ga ne morete revidirati. Za nemškega zavarovalnika, nizozemsko bolnišnico ali slovenskega TSO ta dejstvo samo prisilju klasifikacijo ponudnik-versus-namestitveni EU AI Act, potrdilo o toku podatkov, in v večini primerov pisno sprejetje tveganja od CISO-ja. Upravljana K2 končna točka, gostovana v Severni Ameriki ^[1], ne more proizvesti nobenega od teh artefaktov. Le namestitev znotraj-perimetra lahko.

Odprte uteži rešujejo vprašanje suverenosti vhodnih-podatkov — vaši pozivi in dokumenti nikoli ne zapustijo perimetra. Ne rešujejo vprašanja porekla-modela — uteži same so nastale izven EU. Ublažitev je dokumentiranje vprašanja porekla, klasificiranje delovnih obremenitev proti temu, in nameščanje znotraj perimetra, ki ga nadzorujete. Obravnava po plasteh živi v našem vodiču za kupce suverene AI skladovnice; regulatorna sidra je na /eu-ai-act-compliant-ai.

Agentni K2 v produkciji: plast upravljanja, ki jo GitHub README preskoči

K2-jeva naslovna moč je avtonomna uporaba orodij — 65,8% na SWE-bench Verified ^[1] je merilo agentov, ne merilo klepeta. Ta moč je natanko tisto, kar naredi naivno namestitev nevarno. Model, ki piše kodo, kliče API-je in verižno združi 300 klicev orodij, je model, ki lahko exfiltrira podatke, mutira produkcijsko stanje in porabi proračun brez človeka v zanki. MoonshotAI GitHub README ^[8] vam pove, kako zagnati strežnik. Ne pove vam, kako ustaviti agenta, da ne naredi napačne stvari ob 02:14.

Plast produkcijskega upravljanja ima štiri zahtevane komponente. Ena: dovoljenja orodij z eksplicitnimi dovoljeni-seznami na agentno vlogo, ne splošen dostop do skupnega MCP strežnika. Dva: sandboxed izvajanje kode — vsak exec teče v efemerni posodi brez omrežnega izhoda privzeto. Tri: vrata odobritve človeka pri katerem koli klicu orodja, ki se dotika privilegiranih sistemov (plačila, identiteta, PHI, repozitoriji izvorne kode). Štiri: SIEM-integrirane revizijske sledi, ki beležijo poziv, argumente klica orodja, rezultat klica orodja, verzijo modela in prstni odtis usmerjanja za vsak korak.

To so kontrole, ki jih Wavenetic gradi v WaveOps in v NEXUS, agentni sistem v produkciji pri ELES, slovenskem nacionalnem TSO — glejte /customers/eles. To je razlika med K2 namestitvijo, ki prestane NIS2 revizijo, in tisto, ki postane poročilo o incidentu.

Kje Kimi K2 ustreza v suvereni skladovnici — in kje Qwen, Llama ali DeepSeek še vedno zmagajo

K2 je pravi model za agentno kodiranje in dolgo-horizontno orkestracija orodij znotraj reguliranega perimetra. Ekonomika 32B-aktivnih ^[1] ga naredi strežljivega; SWE-bench in AceBench številke ^[1] ga naredi konkurenčnega z zaprtimi mejnimi modeli; odprte uteži ga naredi namestljivega na WaveNode napravi s podpisano revizijsko verigo. Za ta razred delovne obremenitve, na evropski infrastrukturi, je trenutno najmočnejša odprta možnost.

Je napačen model za kup drugih. Kratko-kontekstni RAG nad slovenskimi, nemškimi ali poljskimi dokumenti teče ceneje in hitreje na nastrojenem Qwen3 ali Llama variantah — en GPU, pod-400ms odgovori. Večjezična podpora strankam z striknimi SLA-ji latence redko upravičuje K2-jev odtis. Stroškovno-občutljivo serijsko povzemanje nad milijoni dokumentov nagiba proti DeepSeek ali manjšemu gostemu modelu. Suverena skladovnica usmerja med temi modeli na razred zahteve — ne standardizira na enega in se pretvarjam, da drugi ne obstajajo.

Kdor zmaga podjetniško K2 namestitev v Evropi, ne bo prodajalec z najcenejšim žetonom. Bil bo tisti, ki dostavlja model, napravo, revizijsko sled in pravno mnenje kot en podpisan sklad — z usmeritveno plastjo, ki ve, kdaj klicati K2 in kdaj klicati kaj manjšega. To je stava, ki jo Wavenetic dela, in naslednja dva naročilna cikla jo bosta rešila.

Rezervirajte pregled K2 namestitve z Wavenetic inženiringom — https://wavenetic.com/#platform