
DeepSeek-V3.2-Exp je stigao kao eksperimentalna iteracija koja se fokusira na učinkovitost u velikim razmjerima i u dugim kontekstima, s jasnim naglaskom na zajednicu: otvoreni kod, objavljene kernele i jeftiniji API.
Osim buke, ključno je da ovaj model, na temelju V3.1-Terminusa, predstavlja mehanizam rijetke pažnje s preciznom granulacijom pod nazivom DeepSeek Sparse Attention (DSA) koji ubrzava obuku i zaključivanje uz održavanje kvalitete. Tvrtka ga je već lansirala 2009. Aplikacija, web i APIi smanjio je cijene korištenja za više od 50%, agresivan potez koji, iskreno, istiskuje konkurenciju.
Ključne nove značajke DeepSeek-V3.2-Exp
Zvjezdana inovacija je DSA, koja omogućuje selektivna pažnja na relevantne dijelove konteksta bez iscrpnog pregledavanja cijelog slijeda. Prema samoj tvrtki, utjecaj na kvalitetu je vrlo nizak, dok je povećanje učinkovitosti u dugoročnom kontekstu to je opipljivo.
U raspoloživosti, model je operativan u aplikacija, web i API od prvog dana, uz značajan pad cijena (50%+) kako bi se olakšalo testiranje i usvajanje. Za one koji žele usporediti, DeepSeek održava privremena krajnja točka od V3.1-Terminusa do 15. listopada 2025. u 15:59 UTC.
Performanse i mjerila DeepSeek-V3.2-Exp: paritet s V3.1-Terminus
DeepSeek je tražio paritet s V3.1-Terminusom na širokom rasponu testova, upravo kako bi se izolirao učinak uvođenja raspršene pažnje. U praksi to rezultira usporedivim metrikama u zaključivanju, šifriranje i korištenje alata agentskog tipa.
Razni izvori navode brojke koje pomažu u postavljanju očekivanja: V3.2-Exp je opisan kao model s 685 milijardi parametara i slične performanse ili s malim varijacijama ovisno o domeni. U zaključivanju bez alata navode se brojevi poput 85.0 MMLU-Pro i 89.3 u AIME 2025; u scenarijima agenata, 40.1 se pojavljuje u PregledajKomp i 67.8 u SWE PotvrđenoTo su rezultati koji se uklapaju u službenu priču potvrditi učinkovitost umjesto da se teži velikom skoku u točnosti.
Postoje čak i fine usporedbe: u zadacima kodiranja, porast 2121 u Codeforcesu u usporedbi s 2046., dok se u humanističkijim testovima opažaju blagi padovi (npr. 19.8 u usporedbi s 21.7 u Posljednjem ispitu čovječanstva). Sveukupno, tablica sugerira uravnotežiti: specifična poboljšanja i mali ustupci, s glavnim fokusom na brzinu.
DSA: Sitnozrnata raspršena pažnja, jasno rečeno
Klasična skrb postaje skupa u širokim kontekstima; DSA Minimizira rad tamo gdje malo doprinosi. Primjenom rijetkosti s preciznom kontrolom, model koncentrira izračun tamo gdje zapravo pronalazi signal, poboljšavajući skrivenost i smanjenje potrošnje, bez narušavanja proizvodnje.
Na razini stvarnog iskustva, to je primjetno u zadacima koji zahtijevaju puno konteksta: sažeci dugih dokumenata, analiza zapisnika, agenti koji održavaju duge dijaloge ili cjevovodi koji kombiniraju dohvaćanje i generiranje. Upravo tu, efikasnost To nije luksuz: to je razlika između toga je li nešto upotrebljivo u velikom obimu ili nije.
Dostupnost, cijene i usporedbe DeepSeek-V3.2-Exp
DeepSeek je objavio da je V3.2-Exp sada dostupan na Aplikacija, web i APIOsim toga, smanjio je cijenu API-ja za više od 50% s trenutnim učinkom, odluka koja ima za cilj proširiti prihvaćanje i potaknuti usporedni testovi.
Za one koji žele usporediti s prethodnim modelom, V3.1-Terminus se održava u krajnja točka privremeno do 15.10.2025. 15:59 (UTC). Tvrtka također poziva na prijave povratna veza putem javnog obrasca, jačajući dinamiku kontinuiranog poboljšanja sa zajednicom.
Status otvorenog koda: težine, tehničko izvješće i kerneli
DeepSeek objavljuje model u Hugging Face, zajedno s tehnička Prijava koji dokumentira promjene i rezultate. Postoji jasna predanost transparentnosti i promicanju dugoročnih primijenjenih istraživanja s niži troškovi.
Na razini kernela postoje dva načina: TileLang za čitanje i izrada prototipa pristupačnije i CUDA za maksimalne performanse. Logit indeksne kernele (uključujući stranične varijante) su u DeepGEMM, dok su oni s raspršenom pažnjom objavljeni u FlashMLAOva odvojenost olakšava istraživačkoj i proizvodno orijentiranoj zajednici da pronađe svoje mjesto.
Lokalno izvršavanje DeepSeek-V3.2-Exp i demonstracije zaključivanja
DeepSeek nudi repozitorij zaključak s ažuriranom demonstracijom za brzi početak i pregled arhitekture. Prvi korak je pretvoriti težine Hugging Facea u format koji očekuje demonstracija, definirajući broj stručnjaka i paralelizam modela.
Primjeri naredbi za interaktivnu pretvorbu i generiranje (postavite EXPERTS=256 i MP na broj GPU-ova): može se koristiti kakvo jest u pripremljenom okruženju.
cd inference export EXPERTS=256 python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP} export CONFIG=config_671B_v3.2.json torchrun --nproc-po-čvoru ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive
Za one koji više vole SGLang, postoje pripremljene slike i naredba za pokretanje. Podrška pokriva NVIDIA (H200), AMD (MI350) GPU-ove i određene NPU-ove, sa specifičnim oznakama.
# H200 docker pull lmsysorg/sglang:dsv32 # MI350 docker pull lmsysorg/sglang:dsv32-rocm # NPU-ovi docker pull lmsysorg/sglang:dsv32-a2 docker pull lmsysorg/sglang:dsv32-a3 python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --veličina-stranice 64
Ako više volite vLLM, ima podršku od prvog dana. Preporučljivo je pregledati službene recepte za ažurne parametre i optimizacije pomoću hardvera.
API: Krajnje točke, kompatibilnost i isteci
API za DeepSeek slijedi standardne konvencije i kompatibilan je s popularnim SDK-ovima. Prema zadanim postavkama, koristi se osnovni URL https://api.deepseek.com ciljate V3.2-Exp, što pojednostavljuje početnu integraciju i pristup snižena stopa.
Za mjerenje performansi postoji privremena krajnja točka za V3.1-Terminus: https://api.deepseek.com/v3.1_terminus_expires_on_20251015Imajte na umu datum i vrijeme isteka (15. listopada 2025., 15:59 UTC) za planiranje mjerila.
Osim toga, postoji kompatibilnost s ekosustavom antropskiMožete koristiti bazu https://api.deepseek.com/anthropic za interakcije u Claudeovom stilu ili varijantu povezanu s privremenom krajnjom točkom ako je potrebno usporediti s prethodnim modelom.
Autentifikacija i upravljanje ključevima
Zahtjeve autentificira nosilac u zaglavlju Autorizacija. Generirajte svoj ključ s DeepSeek nadzorne ploče i sigurno ga pohranite, na primjer u varijablama okruženja ili upraviteljima datoteka. tajne kao AWS Secrets Manager.
Ploča prikazuje korištenje i naplatu kako bi se kontrolirala potrošnja pojavnicaIako su cijene pale, preporučljivo je primijeniti ograničavanje brzine i periodičnu rotaciju ključeva na računalima, uz opoziv bilo kakvih kompromitirani ključ Bez odgađanja.
Dovršavanje chata, predlošci i osnovni zahtjevi
Središnja krajnja točka je /chat/dovršeci, koji obrađuje dijaloge s više poteza i održava kontekst između poziva, idealan scenarij za snage dugog konteksta V3.2-Exp. Postoje dva tipična načina rada modela: deepseek-chat y deepseek-reasoner.
Jednostavno tijelo zahtjeva moglo bi izgledati ovako, koristeći izlazni JSON (ovdje predstavljen kao " radi jasnoće): uključuje sistemski upit i korisnički upit.
{ "model": "deepseek-chat", "messages": [ { "role": "system", "content": "Vi ste tehnički stručnjak." }, { "role": "user", "content": "Objasnite oskudnu pažnju." } ], "stream": false }
Kada želite odgovore u stvarnom vremenu, aktivirajte stream=trueZaglavlja moraju uključivati Content-Type: application/json i Authorization token: Bearer ${DEEPSEEK_API_KEY}. Ako radite s eksplicitnim zaključivanjem, ponašanje možete kontrolirati pomoću zastavice. omogućeno rasuđivanje.
Struktura odgovora i SSE streaming
Odgovori koji se ne struje uključuju polja kao što su id, objekt, kreirano, model, izbori i upotreba. U izborima ćete pronaći generirani sadržaj (uloga: "asistent"), a u upotrebi detalje o prompt_tokens, žetoni_za_dovršetak i ukupni_žetoni.
U načinu strujanja, API šalje Događaji poslani s poslužiteljaSvaki fragment dolazi kao podatkovni događaj s deltom koju morate akumulirati. Ovo je idealna opcija za sučelja interaktivni ili terminali s inkrementalnim izlazom.
Pozivanje funkcija i izlaz u striktnom JSON-u
Možete definirati alat pa model odlučuje kada pozvati funkciju, na primjer, za dohvaćanje podataka ili izvršavanje radnji. To se dobro uklapa u tokove i integracije agenata. pozadina.
Ako vam je potreban strukturirani izlaz, prisilite JSON način rada pomoću response_format. Ovo je korisno za ekstrakciju podataka ili potvrđivanje automatski u cjevovodima.
Python primjeri s OpenAI SDK-om
S Pythonom je ulazna krivulja vrlo glatka. Postavite API_baza Kao i kod DeepSeeka, definirajte ključ i zahtjeve za pokretanje; možete se prebacivati između standardnog i streaming načina rada ovisno o vašoj upotrebi.
import openai openai.api_base = "https://api.deepseek.com" openai.api_key = "your_api_key_here" response = openai.ChatCompletion.create( model="deepseek-chat", messages=[ {"role": "system", "content": "Vi ste asistent u kodiranju."}, {"role": "user", "content": "Napišite Python funkciju za izračun Fibonaccijevih brojeva."} ], stream=False ) print(response.choices[0].message.content) # Streaming stream = openai.ChatCompletion.create(model="deepseek-chat", messages=[...], stream=True) for chunk in stream: if chunk.choices[0].delta.content is not None: print(chunk.choices[0].delta.content, end="") # Poziv funkcije (definicija alata) tools = [ { "type": "function", "function": { "name": "get_weather", "description": "Dohvati trenutno vrijeme", "parameters": { "type": "object", "properties": { "location": {"type": "string"} }, "required": [ "location" ] } } } ]
Za striktni JSON izlaz, postavite format_odgovora a {"type": "json_object"}. A ako ćete imati duge dijaloge, ne zaboravite ići sužavanje konteksta kako biste ostali unutar granica i maksimizirali učinkovitost.
Integracija s Apidogom
Apidog ubrzava izrada prototipova Povratni poziv: Uvoz specifikacija, spremanje varijabli okruženja (kao što je ključ), izrada POST-ova i testiranje u hodu. Simulator odgovora olakšava testiranje ekstremnih slučajeva bez dodatnih troškova. pojavnica.
Također generira isječke koda u različitim idiomi i nudi vremensku crtu za otklanjanje pogrešaka u autentifikaciji ili parametrima. Budući da V3.2-Exp obrađuje široke kontekste, Apidog je izvrstan način za eksperimentiranje s dugi upiti i pogledajte performanse.
Dobre prakse za maksimalno iskorištavanje
Definiranje sistemskih upita jasno i koncizno koji ograničavaju ponašanje. Za složene probleme, način zaključivanja može pomoći, kombinirajući ga s tehnikama strukturiranja misli prikladnim za vaš slučaj.
Upravljajte kontekst s naslovom: Iako V3.2-Exp tolerira dugi kontekst (navode se slučajevi do 128 tisuća), prekomjerna povijest može smanjiti učinkovitost. Implementira pametno skraćivanje, skriven za česte i skupne upite gdje to ima smisla.
U sigurnosti, dezinficira unos kako bi spriječio brze injekcije i bilježi interakcije u revizijaPrilagodite temperaturu i top_p prema svom cilju: niske vrijednosti za determinizam, visoke vrijednosti za kreativnost.
Provedite A/B testove između deepseek-chat y deepseek-reasoner odabrati optimalni način rada. I zapamtite ograničenje brzine kako biste izbjegli iznenađenja u naplate.
Usporedba s V3.1-Terminusom
Uvođenje DSA-a donosi poboljšanja u skrivenost koji se u nekim scenarijima približavaju 3x brzini bez žrtvovanja ukupne parnosti kvalitete. To je evolucija usmjerena na odnos snaga/učinkovitost više nego u zapisima o točnosti.
Mali porasti u kodiranju i blagi padovi u humanističkim područjima odražavaju fino podešavanje modela koji je, po svojoj prirodi, eksperimentalanVremenska krajnja točka V3.1 omogućuje izravne usporedbe koje pokazuju dugoročne dobitke DSA-e.
Napredno lokalno postavljanje
Za implementacije osjetljive na privatnost ili izvan mreže preuzmite pesosa od Hugging Face i korištenje službenih skripti za pretvorbu je pravi put. Postavite broj stručnjaka (npr. 256) i prilagodite paralelizam modela svojim potrebama. GPU.
Demo inferencije omogućuje testiranje u interaktivnom načinu rada, a kerneli u TileLang ili će vam CUDA pomoći da smanjite performanse prema prioritetima: brzina izrade prototipa ili maksimalna propusnost u proizvodnji.
Otvorene jezgre i performanse
TileLang daje prioritet čitljivost i dizajn za istraživanje, tako da možete brzo iterirati s novim idejama. Savršeno je ako istražujete varijante skrbi. raspršena ili optimizacije memorije.
Kako bi se iscijedila svaka milisekunda, na scenu stupaju CUDA kerneli: logit indeksi (sa straničenim verzijama) su u DeepGEMM, dok oni s raspršenom pažnjom žive u FlashMLAOva segmentacija omogućuje svakom timu da odabere stog optimalno bez ponovnog rada.
DeepSeek-V3.2-Exp licenca, termin i kontakt
Spremište i pesosa Model je objavljen pod MIT licencom. To otvara vrata komercijalnoj upotrebi s velikom fleksibilnošću, potičući usvajanje i inovacija u ekosustavu.
Za referenciranje V3.2-Exp u poslovima, DeepSeek pruža unos termina tipa @misc s naslovom «DeepSeek-V3.2-Exp: Poboljšanje učinkovitosti dugog konteksta uz DeepSeek Sparse Attention» i autorstvom «DeepSeek-AI» (godina 2025). Za pitanja ili incidente, kontakt e-mail je service@deepseek.com.
Službeni resursi i korisne poveznice o DeepSeek-V3.2-Exp
Ako želite preuzeti model, imate ga u Zagrljeno liceBijela knjiga se nalazi na GitHubu, zajedno s detaljima implementacije i procjene.
Za usporedne testove između V3.2-Exp i V3.1-Terminus, pogledajte Službeni vodičA ako želite poslati prijedloge, imate kanal povratna veza javno na https://feedback.deepseek.com/dsa.
S V3.2-Exp, DeepSeek daje prioritet jednostavnoj ideji: učinkovitost bez žrtvovanja kvaliteteDSA utire put modelima koji podržavaju masovne kontekste po razumnoj cijeni, pojednostavljeni API donosi te mogućnosti većem broju timova, a otvorenost stoga (težine, jezgre i dokumentacija) olakšava zajednici istraživanje, usporedbu i izgradnju stvarnih proizvoda bez trenja.