字节跳动 DreamLite：首个「端侧统一」图生成编辑模型，0.39B 参数跑赢 Server 级模型

说起端侧 AI 图生图模型，过去一年的主流方案普遍走「专模专用」的路线——文生图一个模型，图生图（编辑）又是另一个模型。这种做法在服务器端问题不大，但一落到手机端，参数体积和推理延迟就成了双重挑战。两套模型各跑各的，既占内存又费电，用户体验很难说得上流畅。

字节跳动视觉基础团队 ByteVision Lab 最新放出的 DreamLite，正是冲着这个痛点来的。根据团队在 arxiv 公开的论文（2603.28713），DreamLite 是业内首个将「文生图生成」与「图引导编辑」统一到单一网络架构中的端侧扩散模型，整个模型只有 0.39B（3.9亿）参数，却能在多项评测中与体积大它十倍的 Server 级模型正面掰手腕。

技术架构：怎么把两个任务塞进一张网？

统一架构的核心思路在于原生日志空间的条件连接（In-Context Spatial Concatenation）。DreamLite 以一个经过剪枝的移动端 U-Net 为骨干网络，将文本条件、源图（编辑任务时）和目标描述在潜空间里直接按通道拼接在一起，再通过一个显式的任务 Token 来告诉模型当前执行的是「生成」还是「编辑」。

这样做的好处是没有额外的参数开销——生成和编辑共享同一套权重，只是输入的 conditioning 略有不同。论文里用 (target || blank) 的配置来处理纯生成任务，用 (target || source) 的配置来处理编辑任务，两种任务路径在网络前向时自然融合，不需要像传统方案那样在多个专用分支之间切换。

顺带一提，DreamLite 的 VAE 和 U-Net 均支持 fp16 推理，而文本编码器（基于 Qwen-VL）则运行在4-bit 量化模式下。整个推理链路设计充分考虑了移动端算力碎片化的现实，在不同机型上都有对应的性能优化路径。

端侧性能：4步推理，1秒出图

真正让 DreamLite 称得上「可用」的关键，是团队引入的步数蒸馏（Step Distillation）技术。标准扩散模型通常需要20~50步去噪才能得到高质量输出，DreamLite Base 版本本身是28步推理，已经比很多同类轻量模型要少，但团队通过 DMD2 蒸馏进一步压缩到了仅4步，质量损失微乎其微。

具体数字方面，团队在小米14（骁龙8 Gen3平台）上的实测结果是：生成或编辑一张1024×1024 分辨率的图片，全程在1秒以内完成。这个数字在端侧 AI 领域已经是相当靠前的水平。顺带一提，在 iPhone 17 Pro 上由于 Neural Engine 架构差异，实测约3秒，同样属于可接受范围。

模型提供两个版本：DreamLite (Base) 支持28步推理和 CFG/IMG_CFG 引导，适合追求最高质量的场景；DreamLite (Mobile) 固定4步推理无需_CFG_引导，适合对延迟极度敏感的实际产品集成。

评测数据：端侧模型里的天花板

DreamLite 的评测分别在文生图和图编辑两个维度展开。先看文生图，在业界常用的 GenEval 基准上，DreamLite 得分 0.72，超过 SnapGen++ (0.66)、SANA-0.6B (0.64) 等所有同类端侧模型，甚至略高于 FLUX.1-Dev (0.67) 和 BAGEL (0.82 但体积12B)。在 DPG (Diffusion Model Guidance) 指标上拿到 85.8，同样是端侧最优。

图编辑任务方面，ImgEdit 得分 4.11，GEdit-EN-Q 得分 6.88。作为参考，OmniGen2（4B）和 BAGEL（7B）分别是 3.44/6.79 和 3.42/7.20，DreamLite 在编辑维度整体胜出，且参数量不到竞品的十分之一。哪怕和专做编辑的端侧模型 EditMGT（0.96B）相比，DreamLite 的 ImgEdit 4.11 也明显领先 EditMGT 的 2.89。

综合来看，DreamLite 在0.5B 参数以下区间建立了明显优势，正式宣告「小模型只能在个别指标上偏科」的时代结束了。

训练策略：任务递进式课程

把两个任务塞进一张网并不容易，DreamLite 采用了任务递进式联合预训练（Task-Progressive Joint Pretraining）策略，分三个阶段依序推进：

第一阶段（T2I）：专注于纯文生图能力，让模型先吃透文本到图像的映射关系；第二阶段（Edit）：引入图引导编辑任务，这时候模型开始学会「参考一张图来修改另一张图」；第三阶段（Joint）：将生成和编辑任务混合训练，加入任务 Token 引导，让网络真正理解「同一套参数，两种不同使命」的运行机制。

在预训练之后，团队还加入了高质量的监督微调（SFT）和强化学习（RL）环节进一步打磨细节，这套流程在国产大模型里已经相当常见，ByteVision Lab 把它借鉴到端侧 diffusion 领域，效果从评测数据看是显著的。

开源与生态：代码已公开，权重需申请

ByteVision Lab 在 GitHub（ByteVisionLab/DreamLite）上已经放出了完整的推理代码和训练脚本，代码协议为 Apache-2.0，方便研究人员复现和二次开发。模型权重目前处于安全审查阶段，团队表示正在陆续开放下载权限，研究者可以发邮件（[email protected]）申请早期访问。

此外，DreamLite 还支持 LoRA 微调，团队提供了完整的微调脚本和示例，方便开发者在自有数据集上对模型进行轻量化定制。从官方文档看，LoRA 接口设计得相当简洁，切换不同风格的成本很低。

值得注意的使用合规要求：DreamLite 严格禁止使用该模型生成、编辑或传播任何色情、暴力、歧视性或违法内容，申请和使用模型即视为同意这一伦理约束。

意义与影响

DreamLite 真正值得关注的地方，不只是「0.39B 参数跑出 Server 级分数」这个表层结论，而是它验证了一条路径——端侧设备的算力已经可以承载多任务统一的生成式 AI 模型。过去业界习惯认为端侧只能跑专模专用的小模型，DreamLite 用事实证明，只要架构设计足够高效、蒸馏手段足够精准，单一模型完全可以在手机上同时搞定生成和编辑两个任务。

对字节跳动内部来说，DreamLite 很可能会被整合进抖音/TikTok 的内容创作工作流、剪映/CapCut 的 AI 创作功能，以及今日头条的配图生成模块。对整个行业而言，DreamLite 开了一个好头——以后端侧 AI 图生图方案的评估维度，可能要从「单一任务精度」升级到「多任务统一能力」了。

论文地址：arxiv.org/abs/2603.28713
GitHub：github.com/ByteVisionLab/DreamLite