LTX‑2 模型发布：开源同步音视频生成引擎

10 月 23 日，AI 视频技术公司 Lightricks 宣布推出新一代开源视频生成模型 LTX ‑2。这款模型在音视频同步和 4K 生成上取得了重大突破，是其上一代模型 LTXV 0.9.8 的重要升级。LTX ‑2 将视听生成合并到一次流程中，并开放了架构和代码，鼓励开发者在其基础上二次开发 (ltx.video) 。

主要亮点

音频与视频同步生成：LTX ‑2 在一个统一的流程中同时生成画面与声音，实现动作、对话、环境音和音乐的同步 (ltx.video) 。
4K 原生分辨率：Ultra 模式下可生成 4K 分辨率、50 帧/秒的视频 (ltx.video) 。
更长的生成长度：支持生成最长 10 秒的连续片段，并在 Pro 模式下兼顾速度和画质 (ltx.video) 。
低成本高效率：基于多 GPU 推理堆栈，计算成本比竞争模型降低约 50% (ltx.video) 。
消费级硬件即可运行：即便在高端消费级 GPU 上也能高效运行，让更多创作者能够使用专业级工具 (ltx.video) 。
创作控制：提供多关键帧调控、3D 相机逻辑及 LoRA 微调等控制选项，实现镜头级的精确度和风格一致性 (ltx.video) 。

模式选择

LTX ‑2 提供多种性能模式，开发者可根据需要在速度和画质之间平衡 (ltx.video) ：

Fast（快速）：面向预视和移动端工作流程的极高速度模式。
Pro（专业）：兼顾高质量与快速周转，适合创作者和日常生产工作。
Ultra（即将推出）：以最高保真度为目标，用于影视级和 VFX 场景，支持原生 4K 50 fps 输出。

RunDiffusion 的文章指出，LTX ‑2 以开源源码的形式发布，并围绕 API 提供 “Fast” 与 “Pro” 两个子模型，以满足从快速构思到高保真制作的不同需求 (www.rundiffusion.com) 。

技术基础与生态

LTX ‑2 建立在混合扩散‑Transformer 架构之上，优化了速度、控制和效率。通过多 GPU 推理堆栈，它能在保证图像质量的同时实现实时生成 (ltx.video) 。模型不仅接受文本，还支持图像、视频、音频、深度图等多模态输入，适用于文本到视频、图像到视频和视频到视频等任务 (ltx.video) 。

Lightricks 在发布中强调，LTX ‑2 的开放性是其核心优势。模型权重、代码和基准将在 2025 年 11 月底向社区开放，开发者可以在 GitHub 上获得资源进行研究和定制 (ltx.video) 。目前该模型通过 LTX 平台和 API 提供访问，并将陆续与 Fal、Replicate、RunDiffusion 等合作伙伴整合 (ltx.video) 。

结语

LTX ‑2 的推出标志着开源 AI 视频生成进入了一个新的阶段。其同步音视频生成、4K 50fps 支持、多模式平衡及即将开放的源码，为创作者与开发者提供了强大的工具和自由。随着模型权重的正式开源，AI 视频生态将迎来更多创新与合作机会。让我们期待这个强大引擎在各类创意场景中释放出更多可能。