6月18日,DeepSeek向所有用户推送了网页版识图模式。此前几天还在灰度测试里的功能,现在几乎每个账号都能看到——输入框上方与”快速模式””专家模式”并列,多了一个蓝色的”识图”按钮。App版本稍慢一步,目前还在内测阶段。
这事要从头说起的话,得回到今年4月24日。那天DeepSeek悄悄上线了V4系列预览版(V4-Pro 1.6T参数,V4-Flash 284B参数,支持100万token上下文),但当时模型还是”盲”的——能处理文字,但不能看图。过了几天,4月29日,识图模式开始灰度测试,只有少量用户摸到了。5月又做了一轮较大范围的开放,但直到这次,才算真正”全量”推送。
多模态团队负责人陈小康是北大博士,在计算机视觉和多模态大模型领域深耕多年,主导过Janus系列和DeepSeek-VL2等多个视觉项目。他在社交媒体上发了一句”试试这双新眼睛”,算是官方确认了这次推送。
识图模式不是简单的OCR。网友实测了几个场景:拍一张博物馆里的不明文物,开启深度思考模式,DeepSeek不仅描述了纹理和材质,还推断出某件玉器是清代乾隆时期的”痕都斯坦风格”;扔给它一张需要空间推理的立方体拼合题,给了4分钟思考时间后给出了正确答案;有用户上传了特朗普和《叛逆的鲁鲁修》主角的合影,它居然同时认出了两个人。这些都超出了普通识别的范畴。
更有意思的是技术报告那件事。4月30日,DeepSeek团队发布了一篇技术报告,标题叫《Thinking with Visual Primitives》(用视觉原语思考),解释了识图功能背后的核心框架——解决”指代鸿沟”问题,把点、边界框等视觉元素直接融入推理链条。报告发出去没多久,官方就连夜把仓库和论文删了,GitHub界面直接显示404。外界猜测很多,有人说还没准备好,有人说透露信息太多了,至今没有明确答案。
说到技术效率,这才是真正有意思的数据。处理一张800×800分辨率的图片,DeepSeek仅消耗约90个tokens。同等分辨率下,GPT和Claude需要消耗870到1100个tokens——差了将近10倍。而且DeepSeek在多项计数和空间推理基准测试上达到了比肩甚至超越前沿模型的水平。
当然也不是完美的。复杂的多层逻辑流程图、准确度要求高的数据图表,DeepSeek的识别能力会明显下降。有用户评价:日常截图、报错信息、表格、论文这类场景基本够用,但复杂的还是差点意思。不过考虑到价格和开放程度,”还是值得一用”。
就在全量上线消息传出的同时,另一个数字也在圈子里热传:DeepSeek完成首轮融资,募资超74亿美元,估值或超500亿美元。这个数字的真实性还没有官方确认,但考虑到这家公司从开源模型一路杀过来的路径,以及现在补上了多模态这块短板,资本市场给出高溢价并不难理解。