它来了
跳票了三个月的 DeepSeek V4,终于以「预览版」的形式,加入了 2026 年的大模型战场。
这次不是 PPT 发布,不是论文先行,而是直接上线—— chat.deepseek.com 和官方 App 已同步更新,API 接口也已开放调用。
作为国产开源大模型的门面,DeepSeek 每次出手都带着「打破规则」的气场。V4 这次也不例外。
两个版本同时上线
这次 V4 系列一口气发了两个版本:
- V4-Pro:高性能旗舰,对标 Sonnet 4.5 / Opus 4.6 级别。编程能力在开源模型中目前最强,数学和竞赛代码表现超越所有已公开评测的开源模型。
- V4-Flash:轻量版,响应更快、价格更低。简单任务和 V4-Pro 水平相当,高难度任务略逊,但胜在性价比。
参数翻倍:1.6 万亿
V3 的参数量是 6710 亿,V4 推测约 1.6 万亿——翻了一倍不止。Mega MoE 架构下单次前向推理激活专家数提升到数千量级,但激活参数量仅约 370 亿,保持了「出手快」的特点。
换句话说:总库极大,出手极快。传统 AI 模型「越大越笨重」的定律正在被改写。
100 万 token 上下文
V4 的上下文长度从 V3 的 128K 跃升到 100 万 token。
这是什么概念?三体三部曲,大约 90 万字。V4 可以一次性处理完,不需要分段、不需要截断、不需要 RAG。
能做到这一点,核心是 Engram(条件记忆架构)——今年 1 月开源的论文核心。Engram 解决的是大模型长上下文的「大规模检索」问题,通过 N-gram 查表 + 动态隐藏态融合,实现 O(1) 查找。
国产算力首秀:华为昇腾
V4 的另一个特殊之处:这是 DeepSeek 首个在全链路适配国产 AI 芯片的万亿级大模型。
由于美国出口限制,DeepSeek 无法使用英伟达 H100/H800。V4 则更进一步,在推理阶段首次全面适配华为昇腾,完成了从英伟达 CUDA 生态向华为 CANN 架构的底层迁移。
开源:Apache 2.0,可商用
V4 系列沿用 Apache 2.0 许可证——免费商用、修改、分发,不需要授权费,不需要 API 抽成。
阿里、腾讯、字节等国内大厂已提前预订了新一代 AI 算力芯片,准备接入 V4。
关于「预览版」——务实地说
需要客观承认:目前 V4 处于灰度预览阶段,并非所有功能都已完全开放。
- V4-Flash 已在 chat.deepseek.com 全面可用
- 正式 API 文档(api-docs.deepseek.com)当前最新版本仍为 V3.2
- 旧接口将于 2026 年 7 月 24 日停用,迁移窗口还有三个月
不要因为是「预览版」就轻视它。V3 当年也是「悄悄上线」然后炸圈的。
资源汇总
官方入口
- 对话体验:https://chat.deepseek.com
- 官网:https://www.deepseek.com
- API 文档:https://api-docs.deepseek.com
- GitHub:https://github.com/deepseek-ai
- 官方 X:https://x.com/deepseek_ai
GitHub 开源仓库
- DeepSeek-V3:671B MoE,完整权重开源
- Engram:条件记忆架构,4300+ ⭐
- DeepGEMM:FP8 GEMM 内核
- FlashMLA:高效注意力核
HuggingFace
API 调用示例
from openai import OpenAI
client = OpenAI(api_key="your-api-key", base_url="https://api.deepseek.com")
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "解释 Engram 架构的核心创新"}],
max_tokens=2000
)
开源 + 万亿参数 + 国产算力 + Apache 2.0,这套组合打出来,直接压缩了闭源大厂的定价空间。V4 不是来凑热闹的,是来砸场子的。