LTX‑2 模型发布:开源同步音视频生成引擎
10 月 23 日,AI 视频技术公司 Lightricks 宣布推出新一代开源视频生成模型 LTX ‑2。这款模型在音视频同步和 4K 生成上取得了重大突破,是其上一代模型 LTXV 0.9.8 的重要升级。LTX ‑2 将视听生成合并到一次流程中,并开放了架构和代码,鼓励开发者在其基础上二次开发 (ltx.video) 。
主要亮点
- 音频与视频同步生成:LTX ‑2 在一个统一的流程中同时生成画面与声音,实现动作、对话、环境音和音乐的同步 (ltx.video) 。
- 4K 原生分辨率:Ultra 模式下可生成 4K 分辨率、50 帧/秒的视频 (ltx.video) 。
- 更长的生成长度:支持生成最长 10 秒的连续片段,并在 Pro 模式下兼顾速度和画质 (ltx.video) 。
- 低成本高效率:基于多 GPU 推理堆栈,计算成本比竞争模型降低约 50% (ltx.video) 。
- 消费级硬件即可运行:即便在高端消费级 GPU 上也能高效运行,让更多创作者能够使用专业级工具 (ltx.video) 。
- 创作控制:提供多关键帧调控、3D 相机逻辑及 LoRA 微调等控制选项,实现镜头级的精确度和风格一致性 (ltx.video) 。
模式选择
LTX ‑2 提供多种性能模式,开发者可根据需要在速度和画质之间平衡 (ltx.video) :
- Fast(快速):面向预视和移动端工作流程的极高速度模式。
- Pro(专业):兼顾高质量与快速周转,适合创作者和日常生产工作。
- Ultra(即将推出):以最高保真度为目标,用于影视级和 VFX 场景,支持原生 4K 50 fps 输出。
RunDiffusion 的文章指出,LTX ‑2 以开源源码的形式发布,并围绕 API 提供 “Fast” 与 “Pro” 两个子模型,以满足从快速构思到高保真制作的不同需求 (www.rundiffusion.com) 。
技术基础与生态
LTX ‑2 建立在混合扩散‑Transformer 架构之上,优化了速度、控制和效率。通过多 GPU 推理堆栈,它能在保证图像质量的同时实现实时生成 (ltx.video) 。模型不仅接受文本,还支持图像、视频、音频、深度图等多模态输入,适用于文本到视频、图像到视频和视频到视频等任务 (ltx.video) 。
Lightricks 在发布中强调,LTX ‑2 的开放性是其核心优势。模型权重、代码和基准将在 2025 年 11 月底向社区开放,开发者可以在 GitHub 上获得资源进行研究和定制 (ltx.video) 。目前该模型通过 LTX 平台和 API 提供访问,并将陆续与 Fal、Replicate、RunDiffusion 等合作伙伴整合 (ltx.video) 。
结语
LTX ‑2 的推出标志着开源 AI 视频生成进入了一个新的阶段。其同步音视频生成、4K 50fps 支持、多模式平衡及即将开放的源码,为创作者与开发者提供了强大的工具和自由。随着模型权重的正式开源,AI 视频生态将迎来更多创新与合作机会。让我们期待这个强大引擎在各类创意场景中释放出更多可能。