Insert Anything: 开源图像无缝插入编辑框架

2025-05-16 286 0

浙江大学、哈佛大学、南洋理工大学联合提出了统一的图像插入框架Insert Anything,支持多种实际场景,包括艺术创作、逼真的脸部交换、电影场景构图、虚拟服装试穿、配饰定制和数字道具更换,下图展示了其在各种图像编辑任务中的多功能性和有效性。

效果展示

相关链接

  • 论文:https://arxiv.org/pdf/2504.15009
  • 主页:https://song-wensong.github.io/insert-anything

结论

Insert Anything是一个基于参考的图像插入统一框架,它通过支持蒙版和文本引导控制,克服了专用方法的局限性,适用于各种插入任务。利用新开发的包含 12 万个提示图像对的 AnyInsertion 数据集以及 DiT 架构的功能实现了创新的上下文编辑机制,该机制采用双联画和三联画提示策略,能够有效地保留身份特征,同时保持插入元素与目标场景之间的视觉和谐。在三个基准测试上进行的大量实验表明,提出的方法在人物、物体和服装插入方面始终优于最先进的方法,为基于参考的图像编辑树立了新标杆,并为现实世界的创意应用提供了通用的解决方案。

相关文章

年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?
深夜炸场!智谱AutoGLM正式开源:打造国产最强AI Agent,手机网页操作能力全面解禁
阿里 AIDC 重磅发布 Ovis-Image:7B 参数挑战 GPT-4o,重新定义 AI 文本渲染
DeepSeek V3.2 正式发布:超越 GPT-5 水平,重新定义 AI Agent 推理能力
Z-Image Turbo重磅发布:通义万相引领AI绘图进入“秒级”高速时代
Black Forest Labs 发布 FLUX.2:重塑图像生成行业的新“真实时代”

发布评论