Skip to content

千问开源统一科学大模型 LOGOS:1B 参数超越微软 NatureLM,生物/化学/材料一个模型全搞定

darlingyc

6月18日,阿里通义实验室联合 ATH-Token Foundry、中国人民大学高瓴人工智能学院,正式开源 LOGOS(Language Of Generative Objects in Science)——这是业内首个基于统一”科学语法”的多领域科学生成基础模型,也是国内首个跨学科统一科学基座模型。

LOGOS 的发布直指 AI for Science(AI4S)领域长期存在的一个核心痛点:模型割裂问题。此前,蛋白预测、分子设计、材料生成、逆合成推理各自需要独立的专用模型,架构不能互通、知识无法迁移、研发和部署成本居高不下。LOGOS 则从根本上终结了这一局面。

核心数据令人震惊:LOGOS-1B 参数量仅为 1B,却大幅超越了微软 NatureLM 8×7B(合计 46.7B 参数)——参数量缩减至对方的 1/56,却在六大主流科学任务上实现了全面持平或反超。Vina 配体对接最低分可达 -11.4,分子 QED 药效评分最高达 0.90,这两项指标均为业界顶级水准。

LOGOS 能够在极小参数量下实现大幅超越,核心技术在于其独创的“统一科学语法”架构。这一架构的核心创新体现在三个层面:

第一,统一异构对象编码。蛋白质、小分子、晶体材料、化学反应——这些过去”鸡同鸭讲”的不同科学实体,LOGOS 用一套共享词表将它们全部编码为统一的离散 Token 序列,让大模型得以用自回归方式理解和生成所有科学对象。传统模型必须依赖 3D 坐标文件作为输入,而 3D 数据标注成本极高、数据集稀缺。LOGOS 则将 3D 空间接触模式直接”语法化”为离散 Token,无需 3D 坐标,仅靠序列预测就能在脑海里构建复杂的空间互作规律。

第二,Form-Objectivo Alignment(目标对齐)。预训练的 next-token prediction(预测下一个词)直接等于下游的条件生成目标,消除了预训练与下游应用之间的目标偏差,不需要复杂的适配层或大量微调即可激活生成能力。

第三,跨领域知识迁移。模型看到蛋白质的”方言”(氨基酸口袋序列),能直接翻译出小分子的”方言”(SMILES 结构),真正学会了两类异构对象之间的语义对应关系。

预训练语料库涵盖7 类模态、44.87B tokens,包括:蛋白质(28.9B tokens)、抗体(3.0B tokens)、小分子(2.1B tokens)、化学反应与 MOF 材料(0.47B tokens)、蛋白质口袋(5.8B tokens)、蛋白口袋-配体复合物(4.6B tokens)。

LOGOS 的开源生态已全面开放:完整模型权重、推理代码、完整技术白皮书、Vina 分子对接配套工具、多任务评测脚本、魔搭/ Hugging Face 一键部署 WebUI,全部免费下载商用。

实际影响方面,有药企首席算法架构测算:批量筛选候选分子动辄需要上万次生成,LOGOS 小参数量、高性能特性可将单批次分子设计算力成本降低 60%;人大高瓴人工智能学院副院长王哲教授指出:LOGOS 让 vLLM、模型量化、分布式微调全部直接复用,把科学 AI 落地成本压缩 70% 以上;沙利文 2026 年 AI4S 产业报告预测,统一基座 LOGOS 有望将行业整体算力投入平均下降 52%。

这次开源的深远意义在于:它打破了生物、化学、材料学科的壁垒,让 AI 科研从”在数据库里筛选已知物质”升级为”AI 主动设计全新功能化合物、蛋白结构和材料”。此前全球药企、材料院所使用的科学模型平均部署成本超百万元/年,多模型并行架构运维复杂;统一基座 LOGOS 的出现,有望成为 AI 科研工具大规模普及的重要拐点。