说起端侧 AI 图生图模型,过去一年的主流方案普遍走「专模专用」的路线——文生图一个模型,图生图(编辑)又是另一个模型。这种做法在服务器端问题不大,但一落到手机端,参数体积和推理延迟就成了双重挑战。两套模型各跑各的,既占内存又费电,用户体验很难说得上流畅。
字节跳动视觉基础团队 ByteVision Lab 最新放出的 DreamLite,正是冲着这个痛点来的。根据团队在 arxiv 公开的论文(2603.28713),DreamLite 是业内首个将「文生图生成」与「图引导编辑」统一到单一网络架构中的端侧扩散模型,整个模型只有 0.39B(3.9亿)参数,却能在多项评测中与体积大它十倍的 Server 级模型正面掰手腕。
技术架构:怎么把两个任务塞进一张网?
统一架构的核心思路在于原生日志空间的条件连接(In-Context Spatial Concatenation)。DreamLite 以一个经过剪枝的移动端 U-Net 为骨干网络,将文本条件、源图(编辑任务时)和目标描述在潜空间里直接按通道拼接在一起,再通过一个显式的任务 Token 来告诉模型当前执行的是「生成」还是「编辑」。
这样做的好处是没有额外的参数开销——生成和编辑共享同一套权重,只是输入的 conditioning 略有不同。论文里用 (target || blank) 的配置来处理纯生成任务,用 (target || source) 的配置来处理编辑任务,两种任务路径在网络前向时自然融合,不需要像传统方案那样在多个专用分支之间切换。
顺带一提,DreamLite 的 VAE 和 U-Net 均支持 fp16 推理,而文本编码器(基于 Qwen-VL)则运行在4-bit 量化模式下。整个推理链路设计充分考虑了移动端算力碎片化的现实,在不同机型上都有对应的性能优化路径。
端侧性能:4步推理,1秒出图
真正让 DreamLite 称得上「可用」的关键,是团队引入的步数蒸馏(Step Distillation)技术。标准扩散模型通常需要20~50步去噪才能得到高质量输出,DreamLite Base 版本本身是28步推理,已经比很多同类轻量模型要少,但团队通过 DMD2 蒸馏进一步压缩到了仅4步,质量损失微乎其微。
具体数字方面,团队在小米14(骁龙8 Gen3平台)上的实测结果是:生成或编辑一张1024×1024 分辨率的图片,全程在1秒以内完成。这个数字在端侧 AI 领域已经是相当靠前的水平。顺带一提,在 iPhone 17 Pro 上由于 Neural Engine 架构差异,实测约3秒,同样属于可接受范围。
模型提供两个版本:DreamLite (Base) 支持28步推理和 CFG/IMG_CFG 引导,适合追求最高质量的场景;DreamLite (Mobile) 固定4步推理无需_CFG_引导,适合对延迟极度敏感的实际产品集成。
评测数据:端侧模型里的天花板
DreamLite 的评测分别在文生图和图编辑两个维度展开。先看文生图,在业界常用的 GenEval 基准上,DreamLite 得分 0.72,超过 SnapGen++ (0.66)、SANA-0.6B (0.64) 等所有同类端侧模型,甚至略高于 FLUX.1-Dev (0.67) 和 BAGEL (0.82 但体积12B)。在 DPG (Diffusion Model Guidance) 指标上拿到 85.8,同样是端侧最优。
图编辑任务方面,ImgEdit 得分 4.11,GEdit-EN-Q 得分 6.88。作为参考,OmniGen2(4B)和 BAGEL(7B)分别是 3.44/6.79 和 3.42/7.20,DreamLite 在编辑维度整体胜出,且参数量不到竞品的十分之一。哪怕和专做编辑的端侧模型 EditMGT(0.96B)相比,DreamLite 的 ImgEdit 4.11 也明显领先 EditMGT 的 2.89。
综合来看,DreamLite 在0.5B 参数以下区间建立了明显优势,正式宣告「小模型只能在个别指标上偏科」的时代结束了。
训练策略:任务递进式课程
把两个任务塞进一张网并不容易,DreamLite 采用了任务递进式联合预训练(Task-Progressive Joint Pretraining)策略,分三个阶段依序推进:
第一阶段(T2I):专注于纯文生图能力,让模型先吃透文本到图像的映射关系;第二阶段(Edit):引入图引导编辑任务,这时候模型开始学会「参考一张图来修改另一张图」;第三阶段(Joint):将生成和编辑任务混合训练,加入任务 Token 引导,让网络真正理解「同一套参数,两种不同使命」的运行机制。
在预训练之后,团队还加入了高质量的监督微调(SFT)和强化学习(RL)环节进一步打磨细节,这套流程在国产大模型里已经相当常见,ByteVision Lab 把它借鉴到端侧 diffusion 领域,效果从评测数据看是显著的。
开源与生态:代码已公开,权重需申请
ByteVision Lab 在 GitHub(ByteVisionLab/DreamLite)上已经放出了完整的推理代码和训练脚本,代码协议为 Apache-2.0,方便研究人员复现和二次开发。模型权重目前处于安全审查阶段,团队表示正在陆续开放下载权限,研究者可以发邮件([email protected])申请早期访问。
此外,DreamLite 还支持 LoRA 微调,团队提供了完整的微调脚本和示例,方便开发者在自有数据集上对模型进行轻量化定制。从官方文档看,LoRA 接口设计得相当简洁,切换不同风格的成本很低。
值得注意的使用合规要求:DreamLite 严格禁止使用该模型生成、编辑或传播任何色情、暴力、歧视性或违法内容,申请和使用模型即视为同意这一伦理约束。
意义与影响
DreamLite 真正值得关注的地方,不只是「0.39B 参数跑出 Server 级分数」这个表层结论,而是它验证了一条路径——端侧设备的算力已经可以承载多任务统一的生成式 AI 模型。过去业界习惯认为端侧只能跑专模专用的小模型,DreamLite 用事实证明,只要架构设计足够高效、蒸馏手段足够精准,单一模型完全可以在手机上同时搞定生成和编辑两个任务。
对字节跳动内部来说,DreamLite 很可能会被整合进抖音/TikTok 的内容创作工作流、剪映/CapCut 的 AI 创作功能,以及今日头条的配图生成模块。对整个行业而言,DreamLite 开了一个好头——以后端侧 AI 图生图方案的评估维度,可能要从「单一任务精度」升级到「多任务统一能力」了。
论文地址:arxiv.org/abs/2603.28713
GitHub:github.com/ByteVisionLab/DreamLite