Nvidia 推出 PixelDiT：首个端到端像素空间扩散 Transformer，CVPR 2026 Oral

PixelDiT 是 NVIDIA 联合罗切斯特大学发表的一项图像生成研究，刚刚被接收为 CVPR 2026 Oral（顶会口头报告）。它是一个单阶段、端到端扩散模型，最大的特点是完全抛弃了传统扩散模型里的 VAE（变分自编码器），直接在像素空间学习和生成图像。在此之前，几乎所有主流扩散模型——包括 Stable Diffusion、DALL-E 系列——都依赖 VAE 把图像压缩到”潜空间”处理，而 PixelDiT 彻底绕过了这一步。

这项研究的核心思路是：与其先把图像编码成一种隐式表示再在那个空间里做扩散，不如直接在像素级别做 diffusion transformer。这样做的好处是模型能够直接学习像素级的细节，避免了编码器压缩过程中的信息损失。

技术规格与性能表现

PixelDiT 发布了两个主要版本：ImageNet 条件生成版本（PixelDiT-XL，797M 参数）和文生图版本（PixelDiT-T2I，1.3B 参数）。其中 T2I 版本直接在 1024×1024 分辨率下训练，标志着像素生成模型首次成功扩展到百万像素级别。

具体成绩方面，PixelDiT 在 ImageNet 256×256 条件生成任务上达到了 1.61 gFID，在 512×512 分辨率下达到了 2.21 gFID，大幅超越此前所有像素空间模型的表现。更关键的是，这些数字已经能够对标当前最先进的潜空间扩散模型，说明纯像素路线的质量瓶颈已经被突破。

局限性与许可证

需要注意的是，NVIDIA 目前在 HuggingFace 上开源的版本（nvidia/PixelDiT-ImageNet）采用的是 NSCLv1 License，明确仅限非商业研究使用，不能用于商业产品。另外 GitHub 仓库（NVlabs/PixelDiT）也已经同步上线，包含完整的训练和推理代码。

此外值得注意的是，PixelDiT 虽然在质量上追平了潜空间模型，但其推理速度并没有优势——像素级别的 Transformer 计算量远大于压缩空间，这也是未来需要优化的地方。

相关链接：
HuggingFace：https://huggingface.co/nvidia/PixelDiT-ImageNet
GitHub：https://github.com/NVlabs/PixelDiT

Nvidia 推出 PixelDiT：首个端到端像素空间扩散 Transformer，CVPR 2026 Oral

技术规格与性能表现

局限性与许可证

Anthropic 发布 Claude Opus 4.8：代码能力飙升，定价不变

AI 自学笔记