xAI 旗下图像生成视频模型 **Grok Imagine Video 1.5** 于 2026 年 6 月 17 日正式发布,一经推出便空降 Artificial Analysis Video Arena 图像生成视频排行榜首位,以 **1404 ±6 Elo** 的评分将字节跳动的 Seedance 2.0、谷歌的 Veo 以及阿里巴巴的 HappyHorse 全部甩在身后,相比 1.0 版本直接跃升 52 个 Elo 点。发布当天,马斯克本人在 X 平台上向其超过 2 亿粉丝推荐了这款产品,并附上了一条使用 Grok Imagine 1.5 制作的《伊利亚特》风格预告片 demo,该视频迅速在社交网络病毒式传播,进一步推高了模型的热度。
值得注意的是,Grok Imagine 1.5 的发布时间线此前已有铺垫:xAI 于 6 月 3 日正式宣布推出 Grok Imagine 1.5 Preview 预览版,随后在 6 月 11 日将发布信息正式写入官方 release notes,6 月 17 日则是面向公众的全面开放节点。这一紧凑的发布节奏也侧面反映了 xAI 在 AI 视频赛道上急于建立优势的意图——尤其是在 OpenAI Sora 因资源限制被曝暂停扩大发布的背景下,xAI 选择此时全力推进视频生成产品线,竞争格局正在悄然改变。
Grok Imagine Video 1.5 是一款专注于**图像生成视频**(Image-to-Video)的模型,与 Grok 聊天机器人完全独立。它能够将一张静态图像(或多张图像)动画化,生成最长 15 秒的短视频片段,分辨率支持 480p 和 720p 两档。与前代产品相比,1.5 版本的核心突破在于加入了**原生同步音频**能力——模型在一次推理过程中就能同步生成视频画面、背景音乐、音效以及唇形同步对话,无需在视频渲染完成后再单独处理音频。这对于创作者和企业来说大幅缩短了工作流,提升了端到端的创作效率。
该模型的底层架构基于 xAI 自研的 **Aurora-2 引擎**,这是一个自回归混合专家网络(Mixture-of-Experts),能够跨文本、图像、视频和音频四种模态进行下一 token 预测。在此基础上,1.0 版本已实现了最高 4 百万像素原生分辨率的图像生成能力,并内置了”Voice Doctor”音频合成功能用于视频输出的音视觉同步。1.5 版本则在这一 foundation 上进一步强化了视频生成质量,复杂多要素场景的 Prompt 遵循能力更强,生成速度和稳定性也明显优于前代。
Grok Imagine Video 1.5 支持多种输入形式的组合:最多 **9 张图像**、最多 **3 个视频片段**(合计不超过 15 秒)、最多 **3 个音频文件**,外加一段文本提示词。这种灵活的输入机制让它能够支持说话角色短片、产品动态广告、音乐驱动片段、故事序列、分镜转动态等多种创作场景。以产品广告为例,用户上传一张产品静物图,描述”缓缓推近瓶身,水珠凝结,柔和的轮廓光”,模型即可生成带有环境音效和背景音乐的动态广告片段,渲染时间通常不超过一分钟。
视频续接(Video Extension)是另一个实用功能。用户可以从已生成片段的最后一帧继续,模型会保持画面主体的一致性并自然延伸叙事,这对于需要将多个镜头串联成完整故事的场景尤为有用。参考图引导生成则允许用户上传风格或角色参考图,模型在生成新视频时会保持视觉风格的一致性。此外,1.5 版本还内置了**电影级运镜控制**能力,支持镜头推拉、摇移等运镜效果的精确控制。
目前 Grok Imagine Video 1.5 已通过 **xAI API** 向开发者开放,支持通过几行代码快速接入。xAI 官网和多个第三方平台也提供了直接体验入口。对于需要高产量视频内容的创作者来说,这无疑是一个值得关注的新选项。