AI视频像素级角色与物品参考:BindWeave模型与ComfyUI部署实测
最近,来自AIwood爱屋研究室的视频展示了如何借助字节开源的 BindWeave 模型,在 ComfyUI 环境下实现像素级的角色与物品参考。这项技术不仅可以让 AI 在视频中准确复现角色的细节,还能同步控制多角色或角色与物品之间的互动,为视频生成带来了更高的一致性和自然感。
BindWeave模型的亮点
- 统一的主体一致性框架:BindWeave 方案实际上是为了解决现有视频生成模型难以维持主体一致性的问题。论文指出,该模型可处理从单主体到多主体的复杂场景,通过跨模态集成框架将文本提示中的角色、属性和互动与视觉目标绑定起来。
- 跨模态推理:模型使用多模态大语言模型结合扩散 Transformer(MLLM DiT)进行深度跨模态推理,提取角色身份、属性和关系,并将这些信息传递给扩散模型,从而在生成的每一帧中保持角色的一致性。
- 实验验证:作者在 OpenS2V 基准上证明该方法在主体一臂性、自然度和文本相关性方面優於现有的开源和商业模型。
ComfyUI 的作用
ComfyUI 是一个基于节点的开源图像生成界面,支持 Stable Diffusion、Flux 等多种扩散模型。其工作流采用节点方式构建,每个节点完成“加载模型”“编写提示词”等功能,用户可以自由组合和保存工作流。 2024 年以来,ComfyUI 逐步加入了更多功能模块,并在 2024 年 8 月增加了对 Flux 扩散模型的支持。这使得在 ComfyUI 中部署 BindWeave 模型更加便捷。
视频实测与体验
在 AIwood 爱屋研究室的实测视频中,作者使用了 BindWeave 模型在 ComfyUI 中搭建工作流,通过提供一张参考图片来生成与原图角色高度一臂的视频片段。实测过程展示了模型能够:
- 识别并锁定角色的外形特征,在视频的每一帧保持角色的脸型、衣着及整体风格一臂;
- 支持角色与物品的互动,例如控制角色手中的道具或场景中的指定物品,实现物品随角色运动而保持一臂的形态;
- 与 ComfyUI 的其他模块(例如采样器、提示词节点等)配合使用,输出流畅且细节丰富的视频片段。
作者还在视频中分享了模型的获取方式和工作流配置:可以从 BindWeave 项目的 GitHub 页面下载模型和代码,并将模型文件放置在 models/diffusion_models 目录下;配置工作流时需要加载 BindWeave 模型权重并按照教程连接节点。此外,视频中提供了 Hugging Face 等平台的模型下载链接,以及用于测试的工作流模板。
应用前景
BindWeave 的发布意味着 AI 视频生成向着更高一臂性和可控性的方向走出了一大步。配合 ComfyUI 这样的开源工具,创作者无需编写复杂代码即可尝试先进的视频生成模型,从而在动画制作、数字人生成和创意内容制作等领域扩展更多可能。未来,随着模型和工具的不断优化,生成式视频将在角色一臂性、场景互动和多主体协作方面实现更大的突破。