核心架构:极简两组件
LongCat-AudioDiT 的架构极为精简,仅包含两大核心模块:
- Wav-VAE(波形变分自编码器):将 24kHz 原始波形信号压缩 2000 倍,降至 11.7Hz 的潜空间帧率,大幅降低计算量的同时保留语音的细粒度声学信息;
- DiT(扩散 Transformer):以 Transformer 为骨干网络,在上述潜空间中执行非自回归扩散采样,直接从文本 tokens 生成高质量语音波形。
文本侧采用 UMT5(多语言版 T5)作为文本编码器,融合原始词嵌入与顶层隐藏状态,补齐音素细节,支撑中英文等多语言场景。
单阶段训练超越多阶段 SOTA
传统 TTS 通常采用「预测声学特征 + 神经声码器」的多阶段流程,每一阶段都会引入误差累积。LongCat-AudioDiT 另辟蹊径,在仅使用 ASR 转录数据进行单阶段训练的前提下,就在零样本语音克隆任务上超越了此前需复杂多阶段训练的前 SOTA 模型 Seed-TTS:
| 模型 | Seed-ZH 相似度 (SIM) | Seed-Hard 相似度 (SIM) |
|---|---|---|
| Seed-TTS(此前 SOTA) | 0.809 | 0.776 |
| LongCat-AudioDiT-3.5B | 0.818 | 0.797 |
3.5B 版本在中英文双语的说话人相似度指标上均有显著提升,同时维持了极具竞争力的语音可懂度(WER / CER)。
关键发现:Wav-VAE 重建保真度 ≠ TTS 性能
LongCat 团队在论文中提到了一个反直觉的消融实验结论:Wav-VAE 的重建保真度越高,并不一定带来更好的整体 TTS 效果。这说明波形潜空间的设计空间仍有大量未知规律等待探索,也凸显了 LongCat-AudioDiT 架构选择的独到之处。
开源信息
- GitHub:meituan-longcat/LongCat-AudioDiT
- HuggingFace:LongCat-AudioDiT-1B / LongCat-AudioDiT-3.5B
- 论文:arXiv:2603.29339
- 许可证:MIT
LongCat-AudioDiT 的开源为语音生成开源社区注入了新的活力,其波形潜空间建模路线有望成为下一代 TTS 架构的主流方向。