2026年6月27日,DeepSeek联合北京大学正式发布DSpark推理加速框架,这是一套基于推测解码(Speculative Decoding)方向的新型大模型推理优化方法。该框架已集成至DeepSeek-V4-Flash与DeepSeek-V4-Pro的线上预览版服务引擎中,相比此前生产环境采用的单token推测解码基线MTP-1,在同等吞吐量水平下可将单用户生成速度提升60%至85%,吞吐量提升幅度从51%最高可达400%。相关论文、训练代码及模型检查点已在GitHub平台开源。
什么是推测解码?为什么需要DSpark?
大语言模型采用自回归方式逐token生成输出——每生成一个token都需要完整跑一遍模型,GPU算力与显存在大多数时刻处于空转等待状态。这种串行特性导致响应延迟高、算力开销大,尤其在高并发场景下,服务器排队现象严重,成为大模型商业化落地的主要成本瓶颈。
推测解码的基本思想是:用一个轻量级草稿模型预先批量生成候选token,再由主模型一次性并行核验,正确的内容直接跳过重算,只有出错的段落才重新生成。这样就把原本的串行生成变成了并行校验,理论上可以实现显著的速度提升。
然而,现有方案各有缺陷:纯并行草稿模型(如DFlash)虽然生成速度快,但候选token之间缺乏依赖关系,预测准确率随预生成长度增加而快速下降,导致大量验证算力被浪费;纯顺序方案(如Eagle)虽然token关联准确率高,但并行度低,GPU吞吐提升有限。
DSpark的技术核心:半自回归+置信度调度
DSpark的核心创新在于将并行生成与顺序依赖相结合,提出半自回归候选生成架构。具体而言:
并行主干网络:使用Transformer骨干网络一次性产出所有候选位置的并行特征表示,保证高吞吐量。
轻量级顺序模块:在并行主干基础上,仅用两层Transformer深度就引入逐token的依赖信息,让草稿模型对每个位置预测得更准,大幅提升接受率。DeepSeek在论文中指出,这一设计让草稿模型以两层深度超越了五层并行方案的准确率。
在接受率优化之外,DSpark还提出了置信度驱动的动态验证调度机制:训练一个轻量级打分器,推理时对每个候选位置输出”把握程度”,系统根据实时GPU显存占用和负载情况,自动裁剪掉大概率会核验失败的无效token,动态调整验证长度,从而减少无效计算开销。
实测效果:接受长度提升16%-31%,延迟降低60%-85%
DeepSeek在DeepSeek-V4线上生产环境中部署了DSpark,相较于MTP-1基线,关键指标如下:
可接受生成长度:提升16.3%至30.9%,意味着每次验证可以确认更多token,减少回退次数。
单用户生成延迟:DeepSeek-V4-Flash提升60%-85%,DeepSeek-V4-Pro提升57%至78%。
系统吞吐量:提升51%至400%,具体幅度取决于并发量与任务类型。
需要注意的是,加速效果因场景而异。在复杂推理任务中,草稿模型预判准确率会有所下滑,加速效果相应打折。但即便稳定提升数十个百分点,对高并发业务场景的并发承载能力与单位成本影响已经十分显著。
DeepSpec:全栈开源框架,支持Qwen、Gemma
DeepSeek此次不仅开源了DSpark模型检查点,还同步开源了DeepSpec——一个用于训练和评估推测解码草稿模型的全栈代码库,涵盖数据准备、训练脚本和评测工具链。
DeepSpec目前已内置三种草稿模型方案(DSpark、DFlash、Eagle3),并支持Qwen3和Gemma等主流开源模型系列。开发者可以在GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca和Arena-Hard-v2等多个基准上进行评测。
相关资源:
📄 论文:DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation
🔧 GitHub:github.com/deepseek-ai/DeepSpec
🤗 HuggingFace:DeepSeek-V4-Pro-DSpark
降本逻辑:软件优化即可带来4倍吞吐提升
DSpark的核心商业价值在于:纯软件算法优化,无需升级硬件。以10台GPU服务器的原有高峰期并发支撑能力为例,部署DSpark后同等吞吐量下仅需2.5至5台服务器即可满足需求,硬件采购与电费支出同步下降。按DeepSeek-V4系列100万上下文窗口的KV缓存显存占用计算,DSpark可将推理总成本压缩40%-70%。
这意味着,AI客服、批量信息处理、长文档分析等高并发场景,原先因服务器排队导致用户等待时间过长的问题,部署DSpark后相同硬件可承载更多并发请求,用户体验与业务规模同步改善。
背景:DeepSeek同期宣布74亿美元融资、拟翻倍扩张团队
就在DSpark发布前一天(6月26日),DeepSeek宣布完成74亿美元(约合50亿元人民币)首轮融资,投资方包括腾讯、宁德时代,以及国家人工智能产业投资基金,公司估值突破500亿美元。同日DeepSeek还透露,计划在明年将各部门规模至少翻倍,以支撑快速扩张。
DSpark的发布,叠加大规模融资与团队扩张,标志着DeepSeek正在从”模型性能竞争”全面转向”推理效率与成本竞争”。在大模型API调用价格战日益激烈的背景下,推理效率每提升一个百分点,都意味着更低的单位成本和更强的商业落地能力。这场以效率为核心的新一轮竞争,才刚刚开始。