Brez humbuka: najboljši odprto-težinski LLM-ji za podjetniški RAG po tipu delovne obremenitve

Za podjetniški RAG ne obstaja en sam najboljši odprto-težinski LLM. Obstajajo štirje obrambni seznami, vsak prilagojen specifičnemu tipu RAG delovne obremenitve, in izbira na podlagi lestvice namesto delovne obremenitve je razlog, zakaj podjetja po dvanajstih mesecih znova gradijo svoj sklad.

Resnična razlika med odprto-težinskimi modeli za lokalno AI ni rezultat na testih ali kontekstno okno. Vprašanje je, ali licenca, izvor podatkov za učenje in obnašanje modela pri verodostojnosti ob nasprotujočih si drobcih preživijo vašo pravno presojo in revizorje. Skoraj nobena javna razvrstitev tega ne meri. Ta objava vam da odločitveno matriko delovna obremenitev-model, ki jo lahko zagovarjate v nabavi — vključno s tem, katere modele diskvalificirati iz licenčnih razlogov in razlogov podatkovne suverenosti, še preden se testiranje začne.

Lestvice so napačna abstrakcija za podjetniški RAG

Generične razvrstitve, usmerjene v MMLU in MTEB, ignorirajo edine tri stvari, ki štejejo pri namestitvi: verodostojnost pri nasprotujočih drobcih, obnašanje citiranja in ali licenca prenese pravno presojo. Model z rezultatom 88 na javnem testu razumevanja in 91 na gostovanem RAG paketu še vedno pade na sestanku za nabavo, če njegova politika sprejemljivih uporab izključuje vašo panogo, ali če izvor njegovih učnih podatkov sproži sektorsko presojo skladnosti. Javni seznami top-10 tega nikoli ne uteži, ker tisti, ki jih pišejo, niso tisti, ki sedijo nasproti pravni ekipi.

RAG je tudi sistem, ne model. Zmogljivost določata dva modela, ki delujeta skupaj — vdelitveni model, ki odloča, ali sistem pridobi prave drobce, in generator, ki odloča, ali ti drobci postanejo natančni odgovori.^[3] Rangiranje generatorjev izolirano, brez izjave o vdelitvenem cevovodu ali konfiguraciji pridobivanja, producira številke, ki se ne prenesejo na vaš korpus. Celo z zelo velikimi kontekstnimi okni ostaja RAG dominantna tehnika utemeljitve za podjetniške podatke, ne glede na velikost modela.^[1] Abstrakcija lestvice tiho predpostavlja, da je model sistem. Ni.

Štirje tipi RAG delovnih obremenitev, ne en univerzalni zmagovalec

Podjetniški RAG se jasno deli na štiri tipe, in vsak nagrajuje drugačen generator. Prvo, visokoobremenilni asistenti za znanje — notranje pisarne za pomoč, služba strankam, iskanje politik — kjer prevladujeta stroški na dokončanje in latentnost prvega žetona. Drugo, sinteza dolgih dokumentov: pravna presoja, finančni prijavi, tehnične specifikacije, kjer sistem usklajuje nasprotujoče odlomke čez stotine strani. Tretje, večstopenjsko sklepanje nad reguliranimi podatki, kjer odgovor zahteva veriženje dokazov čez ločeno pridobljene drobce in revizor bo vprašal, kateri drobec je upravičil kateri stavek. Četrto, namestitev na ločeni infrastrukturi in z nizkimi viri, kjer omejitev ni natančnost — ampak GPU okvir in absolutna prepoved pošiljanja notranjega besedila na gostovani API.

Vsak tip ima drugačen način neuspeha. Visokofrekvenčni asistent ne uspe zaradi stroškov in latentnosti, dolgo preden ne uspe zaradi globine sklepanja. Sintetizator dolgih dokumentov ne uspe pri verodostojnosti, ko si pridobljeni drobci nasprotujejo. Večstopenjski sistem ne uspe zaradi halucinacije vmesnih korakov. Namestitev na ločeni infrastrukturi ne uspe v trenutku, ko nekdo tiho preusmeri vdelitveni klic na končno točko v oblaku. Katerakoli posamična razvrstitev je strukturno napačna, ker dimenzije, za katere optimizira, niso skupne vsem tipom.

Enterprise Bot-ov BASIC test je ugotovil, da Qwen 2.5 72B dosega GPT-4o-jevo 86,6% natančnost pri vprašanjih službe strankam, financ in zdravstva pri 0,0004 $ na dokončanje proti GPT-4o-jevih 0,003 $.^[4] To je rezultat za specifično delovno obremenitev — visoka količina, kratki odgovori, veliko citiranja — in se ne posploši na večstopenjsko pravno sintezo. Obravnavanje, kot da bi se, je napaka, ki jo poskušamo preprečiti.

Seznam 1: visokoobremenilni asistenti za znanje — gpt-oss-120b kot pravno čist privzet

Za asistente, bogate s citati, kjer prevladujeta latentnost in stroški na dokončanje, zmagajo arhitekture mixture-of-experts. Qwen3-30B-A3B poroča 262K kontekst, RAGAS verodostojnost 0,91, relevantnost odgovora 0,88, 98% uspešnost needle-in-haystack pri 128K in 1,2-sekundno latentnost prvega žetona na A10G.^[3] gpt-oss-120b ubere drugačno pot do istega okvira: približno 117B parametrov s 5,1B aktivnimi, MoE plus MXFP4 kvantizacija, deluje na enem samem 80GB GPU, prihaja s podporo za uporabo orodij in je izdan pod Apache 2.0.^[2]

Licenciranje odloči to. Qwen-ove uteži so odlične in ekonomika zaključevanja je težko premagljiva, toda za regulirane sektorje je postavka upravljanja podatkov okoli kitajskih učnih korpusov pravna-preglední element, ne opomba. gpt-oss-120b čisto prečka Apache 2.0: brez izjem sprejemljive uporabe, brez pragov MAU, brez nerjavne pogovorov z glavnim pravnikom o tem, ali se vaša banka, bolnišnica ali ministrstvo šteje za prepovedan primer uporabe. Privzemite gpt-oss-120b za visokofrekvenčni tip. Uporabite Qwen3-30B-A3B kot cenovno optimizirano alternativo le, kadar sektorski profil to omogoča.

Seznam 2: večstopenjsko sklepanje in sinteza dolgih dokumentov — DeepSeek-R1, z opozorili

Za pravno, finančno ali tehnično sintezo čez nasprotujoče vire se modeli, uglašeni za sklepanje, povzpnejo naprej. DeepSeek-R1 poroča RAGAS verodostojnost 0,89, natančnost večstopenjskih QA 94%, 96% uspešnost needle-in-haystack pri 128K kontekstu in 2,1-sekundno latentnost prvega žetona na A10G.^[3] Ta profil latentnosti je v redu za sintezo — nihče ne generira pravne raziskave v 200ms — in večstopenjska natančnost je metrika, ki dejansko napoveduje obnašanje pri vprašanjih z verižnimi dokazi, ki jih sprašujejo revizorji.

Past je specifikacija kontekstnega okna. Isti DeepSeek-R1 opisuje en ponudnik zaključevanja s 128K kontekstom in bistveno večje okno drug, odvisno od konfiguracije namestitve. Nameščeno okno je odvisno od KV-cache proračuna, velikosti paketa in kvantizacije — ne od kartice modela. Potrdite konfiguracijo, ki jo dejansko poganjate, na vaši strojni opremi, z vašim korpusom, preden se zavežete kateremukoli nabavnemu jeziku k številki kontekstnega okna. Obravnavajte objavljena okna kot zgornje meje pod neopredelenimi pogoji, ne kot zagotovila.

DeepSeek-R1 nosi isto sektorsko vprašanje upravljanja podatkov kot Qwen za regulirane panoge. Za evropske javnosektorske in zdravstvene namestitve naredite strojni okvir in licenčno presojo pred testiranjem — ne po njem.

Seznam 3: namestitve na ločeni infrastrukturi — Llama 3.1, z vdelitv enim modelom v isti stojali

Za lokalna podjetja ali podjetja na ločeni infrastrukturi je pravi model največji, ki se prilega vašemu GPU proračunu, medtem ko ohrani celotni cevovod — vdelitev, pridobivanje, generiranje — lokalen. Llama 3.1 8B deluje na enem samem 16GB GPU; 70B različica potrebuje približno 80GB GPU pomnilnika.^[6] Kvantizirane Qwen različice vam dajo več točk na tej krivulji. Odločitev ni, kateri model je v absolutnih izrazih najpametnejši; je, kateri model ohrani dovolj natančnosti pri strojnem okviru, ki ga vaša zmogljivost lahko dejansko napaja, hladi in fizično varuje.

Način neuspeha tu je neviden in drag. Ekipe izberejo močan lokalni generator in nato tiho pošljejo svoje dokumente na gostovani vdelitveni API, ker vdelitveni model, ki so ga hoteli, ni bil lokalno dostopen. Ta posamična odločitev uniči postavko podatkovne suverenosti, ki jo je moral zaščititi celotni lokalni projekt.^[6] Če vaš generator deluje v vaši stojali in vaše vdelitve zapustijo stavbo, nimate RAG sistema na ločeni infrastrukturi. Imate oblačni RAG sistem z dodatnimi koraki.

Llama 3.1 nosi svojo licenčno omejitev — prag 700M mesečnih aktivnih uporabnikov — kar manj pomeni za notranje namestitve in veliko pomeni za produkte, usmerjene v stranke, v merilu.

Diskvalificirajte na licenci in izvoru, preden testirate

Diskvalificirajte modele na treh osnovah, preden se kakršnokoli testiranje izvede. Prvo, omejevalnih klavzul sprejemljive uporabe: Llama-jin prag 700M MAU pomeni za velike potrošniške produkte, in Gemma-jina politika prepovedanih uporab nosi domensko rezanje, ki ga bo pravni oddelek pozorno prebral. Drugo, izvor učnih podatkov in izpostavljenost upravljanju sektorskih podatkov: Qwen in DeepSeek sta tehnično močna in operativno privlačna, toda za regulirane evropske sektorje je vprašanje, od kod prihajajo učni podatki in katere jurisdikcije so oblikovale norme, resnična nabavna vrata. Tretje, vrzeli v jamstvu: večina odprtokodnjih izdaj ne ponuja IP jamstva, in to mora biti vcenjeno v odločitev namestitve ali pokrito s strani integratorja.

Aplicirajte ta filter najprej in večina javnih seznamov top-10 se zruši na dva ali tri izvedljive kandidate na tip delovne obremenitve. Seznam ni krajši, ker so drugi modeli slabši — krajši je, ker drugi modeli ne morejo preživeti pravne presoje za vaš specifični kontekst namestitve. Poganjanje testov na diskvalificiranih modelih je zapravljena GPU ura in nabavna pozornost.

Dodajte še eno os: ali so uteži, licenca in ekosistem dovolj stabilni, da boste ta model še vedno poganjali čez tri leta. Skupnostno vzdrževani direktoriji odprto-težinskih modelov so uporabni kot preverjanje zdravega razuma glede statusa komercialne uporabe, preden se zavežete.^[7]

Odločitvena matrika: delovna obremenitev × licenca × strojni okvir

Obrambni nabavni izhod ni rangiran seznam. Je triosna matrika: tip delovne obremenitve, toleranca licence, GPU okvir. Visokoobremenilni asistent z toleranco licence Apache-2.0-only in 80GB enosamskim GPU okvirjem kaže jasno na gpt-oss-120b. Večstopenjska sintetična delovna obremenitev s permisivno sektorsko toleranco licence in večsamskim GPU okvirjem kaže na DeepSeek-R1 z validiranim nameščenim kontekstnim oknom. Namestitev na ločeni infrastrukturi 16GB razreda za notranjo pisarno za pomoč kaže na Llama 3.1 8B s popolnoma lokalnim vdelitv enim modelom. Ista matrika, različne celice, različni privzeti.

To je matrika, ki jo Wavenetic uporablja za predkonfiguracijo lokalnih namestitev. WaveNode dostavi strojno opremo, izvajalni čas, model, RAG aplikacijo s sledenjem citiranj in revizijsko sledjo ter evropsko podporno pogodbo kot en GDPR-usklajan sklad na strankovi lastni infrastrukturi, na ločeni infrastrukturi, kjer je potrebno. Tako stranke dosežejo produkcijo v manj kot 30 dneh, ne da bi se preplatformirale leto pozneje, ko pride naslednja generacija odprto-težinskih modelov.

Izberite svoj model po lestvici in znova boste gradili svoj RAG sklad v letu. Izberite ga po tipu delovne obremenitve in preživetju licence in še vedno boste poganjali isti sistem, ko pride naslednja generacija odprtih uteži.

Rezervirajte pregled delovna obremenitev-model z našo ekipo in prejmite predkonfigurirani načrt namestitve WaveNode za vašo infrastrukturo — https://wavenetic.com