LTX‑2 模型发布:开源同步音视频生成引擎

2025-10-26 121 0

LTX‑2 模型发布:开源同步音视频生成引擎

10 月 23 日,AI 视频技术公司 Lightricks 宣布推出新一代开源视频生成模型 LTX ‑2。这款模型在音视频同步和 4K 生成上取得了重大突破,是其上一代模型 LTXV 0.9.8 的重要升级。LTX ‑2 将视听生成合并到一次流程中,并开放了架构和代码,鼓励开发者在其基础上二次开发 (ltx.video) 。

主要亮点

  • 音频与视频同步生成:LTX ‑2 在一个统一的流程中同时生成画面与声音,实现动作、对话、环境音和音乐的同步 (ltx.video) 。
  • 4K 原生分辨率:Ultra 模式下可生成 4K 分辨率、50 帧/秒的视频 (ltx.video) 。
  • 更长的生成长度:支持生成最长 10 秒的连续片段,并在 Pro 模式下兼顾速度和画质 (ltx.video) 。
  • 低成本高效率:基于多 GPU 推理堆栈,计算成本比竞争模型降低约 50% (ltx.video) 。
  • 消费级硬件即可运行:即便在高端消费级 GPU 上也能高效运行,让更多创作者能够使用专业级工具 (ltx.video) 。
  • 创作控制:提供多关键帧调控、3D 相机逻辑及 LoRA 微调等控制选项,实现镜头级的精确度和风格一致性 (ltx.video) 。

模式选择

LTX ‑2 提供多种性能模式,开发者可根据需要在速度和画质之间平衡 (ltx.video) :

  • Fast(快速):面向预视和移动端工作流程的极高速度模式。
  • Pro(专业):兼顾高质量与快速周转,适合创作者和日常生产工作。
  • Ultra(即将推出):以最高保真度为目标,用于影视级和 VFX 场景,支持原生 4K 50 fps 输出。

RunDiffusion 的文章指出,LTX ‑2 以开源源码的形式发布,并围绕 API 提供 “Fast” 与 “Pro” 两个子模型,以满足从快速构思到高保真制作的不同需求 (www.rundiffusion.com) 。

技术基础与生态

LTX ‑2 建立在混合扩散‑Transformer 架构之上,优化了速度、控制和效率。通过多 GPU 推理堆栈,它能在保证图像质量的同时实现实时生成 (ltx.video) 。模型不仅接受文本,还支持图像、视频、音频、深度图等多模态输入,适用于文本到视频、图像到视频和视频到视频等任务 (ltx.video) 。

Lightricks 在发布中强调,LTX ‑2 的开放性是其核心优势。模型权重、代码和基准将在 2025 年 11 月底向社区开放,开发者可以在 GitHub 上获得资源进行研究和定制 (ltx.video) 。目前该模型通过 LTX 平台和 API 提供访问,并将陆续与 Fal、Replicate、RunDiffusion 等合作伙伴整合 (ltx.video) 。

结语

LTX ‑2 的推出标志着开源 AI 视频生成进入了一个新的阶段。其同步音视频生成、4K 50fps 支持、多模式平衡及即将开放的源码,为创作者与开发者提供了强大的工具和自由。随着模型权重的正式开源,AI 视频生态将迎来更多创新与合作机会。让我们期待这个强大引擎在各类创意场景中释放出更多可能。

相关文章

谷歌发布Gemini 3:百万级上下文与全链路 Agent 引领 AI 新纪元
AI视频像素级角色与物品参考:BindWeave模型与ComfyUI部署实测
谷歌Gemini平台将推出Nano Banana2,图像生成效率与风格多样性升级
重磅发布:MiniMax M2 开源模型 —— 低成本高性能新时代
开源AI新浪潮:十月风云变幻,模型竞赛进入“效率为王”新阶段
近一周开源模型动态汇总(2025年10月21日–28日)