近一周开源模型动态汇总(2025年10月21日–28日)

2025-10-28 142 0

近一周开源模型动态汇总(2025年10月21日–28日)

本周开源模型领域的动态非常丰富,以下是几件值得关注的大事:

MiniMax 发布新一代开源文本大模型 M2

  • MiniMax(稀宇极智)在 10 月 27 日正式发布并开源新一代文本大模型 MiniMax‑M2。在全球权威评测榜单 Artificial Analysis(AA)中,这一模型总分进入全球前五,并成为榜单上的开源第一。
  • M2 采用混合专家(MoE)架构,总参数约 2300 亿,但在推理时只激活 100 亿参数,支持 204 800 token 的上下文窗口和 131 072 token 的输出能力。
  • 性能方面,M2 在代码生成、智能代理、深度搜索等指标上表现优异,接口价格只有竞争对手的大约 8%,每百万 token 的输入和输出费用分别为 0.3 美元和 1.2 美元。
  • MiniMax 采用 Apache 2.0 许可证开放 M2,并在 Hugging Face 上提供模型权重,开发者可免费调用 API 或本地部署。

通义千问推出 Qwen3‑VL 多模态系列

  • 阿里通义本周公布了 Qwen3‑VL 多模态模型族,包含 4 款 Dense 模型和 2 款 MoE 模型,每款都提供 Instruct 与 Thinking 两个版本。其中 Instruct 版针对对话和工具调用优化,而 Thinking 版强化长链推理与复杂视觉理解能力。
  • 官方同时发布了 12 个 FP8 量化版本,共计 24 个可商用的 Qwen3‑VL 开源权重模型,均已在魔搭社区和 Hugging Face 免费提供下载和商用。
  • 从官方给出的评测对比图来看,新一代 Qwen3‑VL 在知识问答、推理、编码、对齐、多语言等多个维度都有明显提升。

DeepSeek 开源新型 OCR 模型

  • 10 月 20 日,DeepSeek 团队发布了全新的 DeepSeek‑OCR 模型,探索“文本视觉压缩”技术。模型将文本信息转换为图像再压缩,在 10 倍压缩比以内能达到约 97% 的 OCR 准确率,支持近百种语言。
  • 该模型由 DeepEncoder 和 3 B 参数的 MoE 解码器构成,能在使用更少视觉 token 的情况下比主流 OCR 系统表现更好,适合生成大规模多模态训练数据。

如果对上述内容有任何补充或修改建议,欢迎在评论区分享。

相关文章

谷歌发布Gemini 3:百万级上下文与全链路 Agent 引领 AI 新纪元
AI视频像素级角色与物品参考:BindWeave模型与ComfyUI部署实测
谷歌Gemini平台将推出Nano Banana2,图像生成效率与风格多样性升级
重磅发布:MiniMax M2 开源模型 —— 低成本高性能新时代
开源AI新浪潮:十月风云变幻,模型竞赛进入“效率为王”新阶段
LTX‑2 模型发布:开源同步音视频生成引擎