剛剛,DeepSeek開(kāi)源V3.2

 人參與 | 時(shí)間:2025-11-30 15:25:45

  剛剛,剛剛DeepSeek-V3.2-Exp 開(kāi)源了!開(kāi)源

  該模型參數量為 685B,剛剛HuggingFace 鏈接:

  https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

  此外,開(kāi)源此次發(fā)布竟然也同步公開(kāi)了論文,剛剛公開(kāi)了 DeepSeek 新的開(kāi)源稀疏注意力機制,為我們提供了更多結束細節:

  https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

  DeepSeek Sparse Attention(DSA)稀疏注意力機制

  在官方介紹中,剛剛DeepSeek 表示 DeepSeek-V3.2-Exp 是開(kāi)源實(shí)驗版本。作為邁向下一代架構的剛剛過(guò)渡,V3.2-Exp 在 V3.1-Terminus 的開(kāi)源基礎上引入了 DeepSeek 稀疏注意力機制(DeepSeek Sparse Attention,DSA)—— 一種旨在探索和驗證在長(cháng)上下文場(chǎng)景下訓練和推理效率優(yōu)化的剛剛稀疏注意力機制。

  DSA 也是開(kāi)源 3.2 版本的唯一架構改進(jìn)。

  DeepSeek-V3.2-Exp 的剛剛架構,其中 DSA 在 MLA 下實(shí)例化。開(kāi)源

  重點(diǎn)要說(shuō)的剛剛是,DeepSeek 稱(chēng)該實(shí)驗版本代表了他們對更高效的 Transformer 架構的持續研究,特別注重提高處理擴展文本序列時(shí)的計算效率。

  在 v3.2 版本中,DeepSeek 稀疏注意力 (DSA) 首次實(shí)現了細粒度稀疏注意力,在保持幾乎相同的模型輸出質(zhì)量的同時(shí),顯著(zhù)提高了長(cháng)上下文訓練和推理效率。

  為了嚴格評估引入稀疏注意力機制的影響,DeepSeek 特意將 DeepSeek-V3.2-Exp 的訓練配置與 9 月 22 日剛剛推出的 V3.1-Terminus 進(jìn)行了對比。在各個(gè)領(lǐng)域的公開(kāi)基準測試中,DeepSeek-V3.2-Exp 的表現與 V3.1-Terminus 相當。

  更多信息,讀者們可以查閱 DeepSeek-V3.2-Exp 的 huggingface 介紹。

  值得一提的是,智譜的 GLM-4.6 也即將發(fā)布,在 Z.ai 官網(wǎng)可以看到,GLM-4.5 標識為上一代旗艦模型。

  最后,有一波小節奏。在模型發(fā)布前,已經(jīng)有網(wǎng)友在 Community 里發(fā)帖稱(chēng):國慶是休息日,請給我們關(guān)注的同學(xué)一點(diǎn)休息時(shí)間。

  對此,你怎么看?

頂: 4335踩: 9