DeepSeek发布DSpark：大模型推理速度提升60%-85%，联合北大开源推理加速框架

2026年6月27日，DeepSeek联合北京大学正式发布DSpark推理加速框架，这是一套基于推测解码（Speculative Decoding）方向的新型大模型推理优化方法。该框架已集成至DeepSeek-V4-Flash与DeepSeek-V4-Pro的线上预览版服务引擎中，相比此前生产环境采用的单token推测解码基线MTP-1，在同等吞吐量水平下可将单用户生成速度提升60%至85%，吞吐量提升幅度从51%最高可达400%。相关论文、训练代码及模型检查点已在GitHub平台开源。

什么是推测解码？为什么需要DSpark？

大语言模型采用自回归方式逐token生成输出——每生成一个token都需要完整跑一遍模型，GPU算力与显存在大多数时刻处于空转等待状态。这种串行特性导致响应延迟高、算力开销大，尤其在高并发场景下，服务器排队现象严重，成为大模型商业化落地的主要成本瓶颈。

推测解码的基本思想是：用一个轻量级草稿模型预先批量生成候选token，再由主模型一次性并行核验，正确的内容直接跳过重算，只有出错的段落才重新生成。这样就把原本的串行生成变成了并行校验，理论上可以实现显著的速度提升。

然而，现有方案各有缺陷：纯并行草稿模型（如DFlash）虽然生成速度快，但候选token之间缺乏依赖关系，预测准确率随预生成长度增加而快速下降，导致大量验证算力被浪费；纯顺序方案（如Eagle）虽然token关联准确率高，但并行度低，GPU吞吐提升有限。

DSpark的技术核心：半自回归+置信度调度

DSpark的核心创新在于将并行生成与顺序依赖相结合，提出半自回归候选生成架构。具体而言：

并行主干网络：使用Transformer骨干网络一次性产出所有候选位置的并行特征表示，保证高吞吐量。

轻量级顺序模块：在并行主干基础上，仅用两层Transformer深度就引入逐token的依赖信息，让草稿模型对每个位置预测得更准，大幅提升接受率。DeepSeek在论文中指出，这一设计让草稿模型以两层深度超越了五层并行方案的准确率。

在接受率优化之外，DSpark还提出了置信度驱动的动态验证调度机制：训练一个轻量级打分器，推理时对每个候选位置输出”把握程度”，系统根据实时GPU显存占用和负载情况，自动裁剪掉大概率会核验失败的无效token，动态调整验证长度，从而减少无效计算开销。

实测效果：接受长度提升16%-31%，延迟降低60%-85%

DeepSeek在DeepSeek-V4线上生产环境中部署了DSpark，相较于MTP-1基线，关键指标如下：

可接受生成长度：提升16.3%至30.9%，意味着每次验证可以确认更多token，减少回退次数。

单用户生成延迟：DeepSeek-V4-Flash提升60%-85%，DeepSeek-V4-Pro提升57%至78%。

系统吞吐量：提升51%至400%，具体幅度取决于并发量与任务类型。

需要注意的是，加速效果因场景而异。在复杂推理任务中，草稿模型预判准确率会有所下滑，加速效果相应打折。但即便稳定提升数十个百分点，对高并发业务场景的并发承载能力与单位成本影响已经十分显著。

DeepSpec：全栈开源框架，支持Qwen、Gemma

DeepSeek此次不仅开源了DSpark模型检查点，还同步开源了DeepSpec——一个用于训练和评估推测解码草稿模型的全栈代码库，涵盖数据准备、训练脚本和评测工具链。

DeepSpec目前已内置三种草稿模型方案（DSpark、DFlash、Eagle3），并支持Qwen3和Gemma等主流开源模型系列。开发者可以在GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca和Arena-Hard-v2等多个基准上进行评测。

降本逻辑：软件优化即可带来4倍吞吐提升

DSpark的核心商业价值在于：纯软件算法优化，无需升级硬件。以10台GPU服务器的原有高峰期并发支撑能力为例，部署DSpark后同等吞吐量下仅需2.5至5台服务器即可满足需求，硬件采购与电费支出同步下降。按DeepSeek-V4系列100万上下文窗口的KV缓存显存占用计算，DSpark可将推理总成本压缩40%-70%。

这意味着，AI客服、批量信息处理、长文档分析等高并发场景，原先因服务器排队导致用户等待时间过长的问题，部署DSpark后相同硬件可承载更多并发请求，用户体验与业务规模同步改善。

背景：DeepSeek同期宣布74亿美元融资、拟翻倍扩张团队

就在DSpark发布前一天（6月26日），DeepSeek宣布完成74亿美元（约合50亿元人民币）首轮融资，投资方包括腾讯、宁德时代，以及国家人工智能产业投资基金，公司估值突破500亿美元。同日DeepSeek还透露，计划在明年将各部门规模至少翻倍，以支撑快速扩张。

DSpark的发布，叠加大规模融资与团队扩张，标志着DeepSeek正在从”模型性能竞争”全面转向”推理效率与成本竞争”。在大模型API调用价格战日益激烈的背景下，推理效率每提升一个百分点，都意味着更低的单位成本和更强的商业落地能力。这场以效率为核心的新一轮竞争，才刚刚开始。