Grok Imagine Video 1.5 发布：xAI 图像生成视频模型登顶排行榜，Elo 分数超越 Seedance 2.0

xAI 旗下图像生成视频模型 **Grok Imagine Video 1.5** 于 2026 年 6 月 17 日正式发布，一经推出便空降 Artificial Analysis Video Arena 图像生成视频排行榜首位，以 **1404 ±6 Elo** 的评分将字节跳动的 Seedance 2.0、谷歌的 Veo 以及阿里巴巴的 HappyHorse 全部甩在身后，相比 1.0 版本直接跃升 52 个 Elo 点。发布当天，马斯克本人在 X 平台上向其超过 2 亿粉丝推荐了这款产品，并附上了一条使用 Grok Imagine 1.5 制作的《伊利亚特》风格预告片 demo，该视频迅速在社交网络病毒式传播，进一步推高了模型的热度。

值得注意的是，Grok Imagine 1.5 的发布时间线此前已有铺垫：xAI 于 6 月 3 日正式宣布推出 Grok Imagine 1.5 Preview 预览版，随后在 6 月 11 日将发布信息正式写入官方 release notes，6 月 17 日则是面向公众的全面开放节点。这一紧凑的发布节奏也侧面反映了 xAI 在 AI 视频赛道上急于建立优势的意图——尤其是在 OpenAI Sora 因资源限制被曝暂停扩大发布的背景下，xAI 选择此时全力推进视频生成产品线，竞争格局正在悄然改变。

Grok Imagine Video 1.5 是一款专注于**图像生成视频**（Image-to-Video）的模型，与 Grok 聊天机器人完全独立。它能够将一张静态图像（或多张图像）动画化，生成最长 15 秒的短视频片段，分辨率支持 480p 和 720p 两档。与前代产品相比，1.5 版本的核心突破在于加入了**原生同步音频**能力——模型在一次推理过程中就能同步生成视频画面、背景音乐、音效以及唇形同步对话，无需在视频渲染完成后再单独处理音频。这对于创作者和企业来说大幅缩短了工作流，提升了端到端的创作效率。

该模型的底层架构基于 xAI 自研的 **Aurora-2 引擎**，这是一个自回归混合专家网络（Mixture-of-Experts），能够跨文本、图像、视频和音频四种模态进行下一 token 预测。在此基础上，1.0 版本已实现了最高 4 百万像素原生分辨率的图像生成能力，并内置了”Voice Doctor”音频合成功能用于视频输出的音视觉同步。1.5 版本则在这一 foundation 上进一步强化了视频生成质量，复杂多要素场景的 Prompt 遵循能力更强，生成速度和稳定性也明显优于前代。

Grok Imagine Video 1.5 支持多种输入形式的组合：最多 **9 张图像**、最多 **3 个视频片段**（合计不超过 15 秒）、最多 **3 个音频文件**，外加一段文本提示词。这种灵活的输入机制让它能够支持说话角色短片、产品动态广告、音乐驱动片段、故事序列、分镜转动态等多种创作场景。以产品广告为例，用户上传一张产品静物图，描述”缓缓推近瓶身，水珠凝结，柔和的轮廓光”，模型即可生成带有环境音效和背景音乐的动态广告片段，渲染时间通常不超过一分钟。

视频续接（Video Extension）是另一个实用功能。用户可以从已生成片段的最后一帧继续，模型会保持画面主体的一致性并自然延伸叙事，这对于需要将多个镜头串联成完整故事的场景尤为有用。参考图引导生成则允许用户上传风格或角色参考图，模型在生成新视频时会保持视觉风格的一致性。此外，1.5 版本还内置了**电影级运镜控制**能力，支持镜头推拉、摇移等运镜效果的精确控制。

目前 Grok Imagine Video 1.5 已通过 **xAI API** 向开发者开放，支持通过几行代码快速接入。xAI 官网和多个第三方平台也提供了直接体验入口。对于需要高产量视频内容的创作者来说，这无疑是一个值得关注的新选项。

Grok Imagine Video 1.5 发布：xAI 图像生成视频模型登顶排行榜，Elo 分数超越 Seedance 2.0

OpenClaw v2026.6.8 更新发布

阿里Qwen前负责人林俊旸创业首轮估值20亿美元，腾讯、高榕、红杉联合注资数亿美元

Grok Imagine Video 1.5 发布：xAI 图像生成视频模型登顶排行榜，Elo 分数超越 Seedance 2.0

OpenClaw v2026.6.8 更新发布

阿里Qwen前负责人林俊旸创业首轮估值20亿美元，腾讯、高榕、红杉联合注资数亿美元

AI 自学笔记