PixelDiT 是 NVIDIA 联合罗切斯特大学发表的一项图像生成研究,刚刚被接收为 CVPR 2026 Oral(顶会口头报告)。它是一个单阶段、端到端扩散模型,最大的特点是完全抛弃了传统扩散模型里的 VAE(变分自编码器),直接在像素空间学习和生成图像。在此之前,几乎所有主流扩散模型——包括 Stable Diffusion、DALL-E 系列——都依赖 VAE 把图像压缩到”潜空间”处理,而 PixelDiT 彻底绕过了这一步。
这项研究的核心思路是:与其先把图像编码成一种隐式表示再在那个空间里做扩散,不如直接在像素级别做 diffusion transformer。这样做的好处是模型能够直接学习像素级的细节,避免了编码器压缩过程中的信息损失。
技术规格与性能表现
PixelDiT 发布了两个主要版本:ImageNet 条件生成版本(PixelDiT-XL,797M 参数)和文生图版本(PixelDiT-T2I,1.3B 参数)。其中 T2I 版本直接在 1024×1024 分辨率下训练,标志着像素生成模型首次成功扩展到百万像素级别。
具体成绩方面,PixelDiT 在 ImageNet 256×256 条件生成任务上达到了 1.61 gFID,在 512×512 分辨率下达到了 2.21 gFID,大幅超越此前所有像素空间模型的表现。更关键的是,这些数字已经能够对标当前最先进的潜空间扩散模型,说明纯像素路线的质量瓶颈已经被突破。
局限性与许可证
需要注意的是,NVIDIA 目前在 HuggingFace 上开源的版本(nvidia/PixelDiT-ImageNet)采用的是 NSCLv1 License,明确仅限非商业研究使用,不能用于商业产品。另外 GitHub 仓库(NVlabs/PixelDiT)也已经同步上线,包含完整的训练和推理代码。
此外值得注意的是,PixelDiT 虽然在质量上追平了潜空间模型,但其推理速度并没有优势——像素级别的 Transformer 计算量远大于压缩空间,这也是未来需要优化的地方。
相关链接:
HuggingFace:https://huggingface.co/nvidia/PixelDiT-ImageNet
GitHub:https://github.com/NVlabs/PixelDiT