DeepSeek-V3.2开源技术报告

开源概述与版本定位

DeepSeek-V3.2-Exp 模型于 2025 年 9 月 29 日正式发布并开源，定位为“架构过渡版本”，作为迈向下一代架构的中间步骤，采用实验性（Experimental）验证模式[1][2][3][4]。该版本在 V3.1-Terminus 基础上聚焦效率优化而非性能激进升级，核心突破在于引入自研的 DeepSeek 稀疏注意力（DSA）机制，针对长文本训练与推理效率进行探索性优化[1][2][3][5]。

「版本核心定位」：作为实验性过渡版本，团队旨在通过开源收集真实场景反馈，推动更高效 Transformer 架构的研究，特别注重提升扩展文本序列处理的计算效率[2][4]。

模型同步开放完整权重、论文及算子（如 TileLang/CUDA 算子），开发者可在 Hugging Face、ModelScope 及国家超算互联网 AI 社区免费下载魔改[2][6][7][8]。配套生态方面，官方 API 服务价格下调 50%以上，即刻生效；模型已上架华为云 MaaS 平台，采用大 EP 并行与上下文并行策略优化部署性能，并临时保留 V3.1-Terminus 对比接口至 2025 年底，方便开发者测试验证[1][6][7][9][10]。

核心技术突破

DeepSeek稀疏注意力机制（DSA）原理

传统Transformer在长文本处理中面临计算复杂度瓶颈，其全局注意力机制需对所有token进行关联计算，复杂度高达O(L²)，导致长序列场景下效率显著下降。针对这一问题，DeepSeek稀疏注意力机制（DSA）通过“筛选-计算”两阶段优化实现效率突破，在几乎不影响输出质量的前提下，将复杂度降至O(Lk)（k为远小于序列长度L的固定值，如2048）[3][10][11]。

「两阶段核心机制」：1. 闪电索引器（Lightning Indexer）作为轻量级筛选器，采用128维/ token的轻量级键缓存快速扫描上下文，通过DeepGEMM算子优化的评分机制为每个查询筛选出关键token；2. 稀疏多潜在注意力（Sparse MLA）作为重量级计算器，使用512维/ token的重量级键缓存对筛选结果执行完整维度注意力计算，实现精准信息提取[12][13]。

DSA工作流程包含查询与键投影、索引器评分、Top-k选择（如训练中固定选取2048个token）及稀疏MLA计算四步，首次实现细粒度稀疏注意力机制。其通过MQA模式共享KV向量，并结合SGLang推理框架的优化内核与动态KV缓存，使模型在128K token序列上仍保持高效推理，大幅降低长文本处理的计算成本[4][12][13][14]。

模型架构与训练策略

DeepSeek - V3.2 - Exp 架构基于 DeepSeek - V3.1 - Terminus 构建，保持 671B MoE 参数与 37B 激活参数规模不变，通过引入稀疏注意力机制实现效率突破，上下文长度扩展至 128K，训练数据涵盖 14.8T 高质量 tokens[2][5][6][15][16]。

训练采用三阶段策略：稠密预热阶段训练闪电索引器，以 KL 散度损失优化，学习率 1e - 3，训练 1000 步；稀疏训练阶段优化 DSA 稀疏模式，Query 选 2048 个 KV token，训练 15000 步；后训练阶段通过专家知识蒸馏与混合强化学习（GRPO）平衡多领域表现[10][13]。

「算子双重支持」：提供 TileLang 算子便于研究者调试，同步配备 CUDA 算子保障生产环境高性能部署，体现开源策略对学术探索与工业落地的协同支持[3][8][11]。

分布式训练通过控制跨节点通信提升效率，强化学习技术借鉴 DeepSeek - R1 优化推理任务表现，监督微调采用标准格式数据提升输出可读性[17][18]。

性能评估与关键参数

效率提升指标

DeepSeek-V3.2 在效率维度实现全方位突破，核心指标较 V3.1 系列显著优化，具体数据对比如下：

指标	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp	改进幅度
长文本推理速度	基准	显著提升	~2-3 倍
内存使用量	基准	降低	~30-40%
API 成本	基准	降低	50%+
训练效率	基准	提升	~50%

在实际性能表现中，昇腾设备上 128K 长序列输出时，TTFT（首 token 输出耗时）低于 2 秒，TPOT（每 token 输出耗时）低于 30 毫秒；H800 GPU 集群环境下长序列推理成本显著下降[4][6]。API 定价体系全面优化：输出价格从 12 元/百万 token 降至 3 元，缓存命中输入价格从 0.5 元降至 0.2 元，未命中输入价格从 4 元降至 2 元，开发者调用成本降低超 50%[5][21]。

「业务价值核心体现」：160K 上下文长度支持（华为云适配）实现超长文档处理无需分片；输出 token 量较 V3.1 大幅减少但质量持平，结合 DSA 细粒度稀疏注意力技术，在保证任务完成度的同时，通过降低计算资源消耗与 token 使用量，构建"效率-效果"双优模型[1][4][13]。

任务性能保持与优化

DeepSeek-V3.2通过DeepSeekSparseAttention（DSA）机制实现效率与性能的平衡，在提升长文本训练和推理效率的同时，几乎不影响模型输出质量，各领域公开评测集表现与V3.1-Terminus基本持平[1][3][6][11]。在推理模式性能评估中，关键任务表现如下：

基准测试	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp	变化
MMLU-Pro	85.0	85.0	持平
GPQA-Diamond	80.7	79.9	-0.8
AIME 2025	88.4	89.3	+0.9
Codeforces	2046	2121	+75
LiveCodeBench	74.9	74.1	-0.8

「核心发现」：数学推理与代码竞赛能力显著提升，AIME 2025得分提高0.9分，Codeforces得分提升75分；部分任务如GPQA-Diamond、LiveCodeBench存在-0.8分波动，主要因V3.2-Exp生成推理token更少，中间检查点token数量相当则差距消失[4][14][21][22]。

训练设置与V3.1-Terminus严格对齐，确保核心能力未受牺牲，短文本和长文本任务性能无实质性下降[10]。编码能力接近Claude 3.7，kcores-llm-arena测试得328.3分，超越Claude 3.7 Sonnet；数学能力超过GPT-4.5，编程、逻辑推理等能力评估中未出现显著下降[4][17][18][23]。Agent工具任务中，BrowseComp及BrowseComp-zh得分分别提升1.6和2.9分，验证了DSA机制在保持性能稳定性的同时，实现特定场景优化[19][20]。

应用场景与行业适配

长文本处理场景

DeepSeek-V3.2-Exp 通过 「DSA 稀疏注意力机制」实现技术突破，最大支持 160K 上下文长度，长文本推理速度提升 ~2-3 倍，内存使用量降低 ~30-40%，彻底打破长文本处理的成本门槛[2][8][19][20]。传统长文本处理因上下文限制需分片处理，导致语义割裂与效率损耗，而该模型支持超长文档「无需拆分」，可直接处理法律合同全文分析、多篇学术文献综述一次性输入等场景[10][13][21][22]。

在实测中，模型对 10 万 token 代码库处理效率显著提升，对《三体》三部曲（56 万字）压力测试可准确梳理“面壁计划”逻辑链并识别章北海叛逃伏笔[24][25]。DSA 架构针对长上下文优化，在法律文档分析、学术论文理解、代码库解析等场景具备显著优势，推动长文本应用从“可行”走向“实用”[4][10][13]。

企业服务与硬件适配

DeepSeek-V3.2 的开源显著激活了产业链协同效应，「模型开源后4分钟内即完成寒武纪硬件适配」，展现出技术生态的极速响应能力[2][6]。硬件厂商通过深度优化实现高效部署：寒武纪同步开源大模型推理引擎 vLLM-MLU 源代码，通过 Triton 算子开发与 BangC 融合算子优化提升 GPU 利用率；华为昇腾基于 vLLM/SGLang 框架完成 Day 0 适配并开源推理代码，海光信息 DCU 亦实现 Day 0 级高效适配[6][26][26]。

硬件适配的完善降低了企业部署门槛，配合「API 服务成本下降超50%」（百万输出仅3元，性价比为闭源模型的1/50），显著推动中小企业数字化转型[26][26][27]。华为云、优刻得等平台已完成适配，通过大 EP 并行方案优化时延与吞吐，企业可直接调用高性价比 AI 能力，加速智能客服、医疗咨询等成本敏感场景的技术落地[6][26][26]。

「核心价值」：4分钟硬件适配体现生态协同效率，50%成本降幅与多平台支持共同构建低门槛 AI 应用体系，推动技术普惠。

开源生态与资源获取

开源协议与许可条款

DeepSeek - V3.2 采用 MIT 开源许可证，该协议以商业友好性为核心特征，允许用户自由进行商业使用、模型蒸馏及二次开发，无需像 GPL 等强开源协议那样强制开源衍生作品[17][27][28]。

这种宽松特性显著降低企业 AI 应用门槛，尤其利好中小企业基于模型开发专有应用，加速生态扩张[27][30]。

模型与资源下载

DeepSeek-V3.2-Exp 模型通过多平台开源实现全球化覆盖，开发者可根据区域需求选择适配渠道。在国际访问方面，模型已在 Hugging Face 平台发布，地址为 https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp，支持快速部署，代码示例为 from transformers import AutoModelForCausalLM, AutoTokenizer; model_name = "deepseek-ai/DeepSeek-V3.2-Exp"; tokenizer = AutoTokenizer.from_pretrained(model_name); model = AutoModelForCausalLM.from_pretrained(model_name)[3][4][11][14][31][32]。国内用户可通过 ModelScope（魔搭）平台便捷访问，地址为 https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp[3][11][18][32]。

其他获取途径包括：通过 GitHub 克隆源码（命令 git clone https://github.com/deepseek-ai/DeepSeek-V3.git && cd DeepSeek-V3）[31][33]；访问官方网站（https://www.deepseek.com）或国家超算互联网 AI 社区免费下载模型文件[1][34]；企业用户可通过华为云大模型即服务平台 MaaS 部署[9]。

开源内容包含模型权重及算子代码库，提供 TileLang 与 CUDA 双版本 GPU 算子，示例内核参考 GitHub 链接：https://github.com/tile-ai/tilelang/tree/main/examples/deeps...，研究者可基于 TileLang 快速验证稀疏注意力变体，寒武纪 vLLM-MLU 适配源码同步公开于 https://github.com/Cambricon/vllm-mlu[5][21][22][32][35]。

「关键资源速览」

模型权重：Hugging Face/ModelScope 平台直接下载
源码仓库：github.com/deepseek-ai/deepseek-v3.2-exp
算子示例：TileLang 代码库 examples 目录
部署文档：配套论文（https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf）[2][10][16][36]

技术文档与社区支持

DeepSeek - V3.2 提供了完善的技术文档体系，其核心内容涵盖 DSA 机制原理、训练细节等关键技术点，相关论文已同步公开（https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf），GitHub 技术文档亦包含上述内容及 TileLang 与 CUDA 双版本 GPU 算子实现[4][6][14][21][22]。为便于开发者验证效果，项目提供对比接口，用户可参考官方文档（https://api-docs.deepseek.com/zh-cn/guides/comparison_testing）进行对比测试[3]。

社区支持方面，用户可通过反馈链接（https://feedback.deepseek.com/dsa）提交使用问题，团队基于开源社区真实场景反馈数据，为 V4 架构优化提供方向支持[3][12]。此外，国家超算互联网 AI 社区集成 DeepSeek 系列模型，提供 API 调用、在线推理等 MaaS 服务，进一步拓展了社区应用场景[1]。

「关键资源」

技术报告：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
对比测试文档：https://api-docs.deepseek.com/zh-cn/guides/comparison_testing
用户反馈：https://feedback.deepseek.com/dsa

总结与未来展望

DeepSeek-V3.2-Exp的发布标志着AI竞争从“效果竞赛”转向效率革命，其核心价值体现在技术启示与开源生态的双重突破。「DSA稀疏注意力机制」为大模型架构提供关键启示，通过验证长文本效率优化的可行性，确立了稀疏注意力作为下一代模型标配的技术方向，推动Transformer架构向更高效的扩展文本序列处理演进[2][4][16][19]。开源策略方面，宽松的MIT协议降低了AI技术门槛，加速社区生态共建与技术普惠化，为金融、教育、医疗等垂直领域的深度融合奠定基础[9][10][17]。

作为迈向新一代架构的过渡版本，该模型仍需在真实场景中进行大规模测试，进一步优化工作记忆、计算精度稳定性等问题[2][6][12]。展望未来，V4版本有望基于DSA机制实现更深层次的架构创新，重点提升长文本处理能力与计算效率[2][10]。同时，开源生态的持续扩张将推动中小企业AI应用爆发，降低API成本超50%的技术优势，或将加速AI在软件开发、数据分析等领域的普惠应用，开启效率驱动的行业变革新阶段[8][9][10]。

「核心启示」：稀疏注意力技术重塑大模型效率范式，开源策略成为AI民主化关键路径。
「未来方向」：V4架构创新聚焦DSA深化应用，开源生态助力中小企业AI落地与垂直领域渗透。

DeepSeek-V3.2开源上线