美团开源 LongCat-AudioDiT：波形潜空间建模刷新语音克隆 SOTA

美团 LongCat 团队于 2026 年 3 月 31 日正式发布并开源了全新音频生成模型 LongCat-AudioDiT（1B / 3.5B 两个参数版本）。该模型彻底抛弃传统 TTS 系统中的梅尔频谱（Mel-Spectrogram）等中间表示，首次在业界实现直接在波形潜空间（Waveform Latent Space）内完成端到端文本转语音，开源地址见文章末尾。

核心架构：极简两组件

LongCat-AudioDiT 的架构极为精简，仅包含两大核心模块：

Wav-VAE（波形变分自编码器）：将 24kHz 原始波形信号压缩 2000 倍，降至 11.7Hz 的潜空间帧率，大幅降低计算量的同时保留语音的细粒度声学信息；
DiT（扩散 Transformer）：以 Transformer 为骨干网络，在上述潜空间中执行非自回归扩散采样，直接从文本 tokens 生成高质量语音波形。

文本侧采用 UMT5（多语言版 T5）作为文本编码器，融合原始词嵌入与顶层隐藏状态，补齐音素细节，支撑中英文等多语言场景。

单阶段训练超越多阶段 SOTA

传统 TTS 通常采用「预测声学特征 + 神经声码器」的多阶段流程，每一阶段都会引入误差累积。LongCat-AudioDiT 另辟蹊径，在仅使用 ASR 转录数据进行单阶段训练的前提下，就在零样本语音克隆任务上超越了此前需复杂多阶段训练的前 SOTA 模型 Seed-TTS：

模型	Seed-ZH 相似度 (SIM)	Seed-Hard 相似度 (SIM)
Seed-TTS（此前 SOTA）	0.809	0.776
LongCat-AudioDiT-3.5B	0.818	0.797

3.5B 版本在中英文双语的说话人相似度指标上均有显著提升，同时维持了极具竞争力的语音可懂度（WER / CER）。

关键发现：Wav-VAE 重建保真度 ≠ TTS 性能

LongCat 团队在论文中提到了一个反直觉的消融实验结论：Wav-VAE 的重建保真度越高，并不一定带来更好的整体 TTS 效果。这说明波形潜空间的设计空间仍有大量未知规律等待探索，也凸显了 LongCat-AudioDiT 架构选择的独到之处。

开源信息

GitHub：meituan-longcat/LongCat-AudioDiT
HuggingFace：LongCat-AudioDiT-1B / LongCat-AudioDiT-3.5B
论文：arXiv:2603.29339
许可证：MIT

LongCat-AudioDiT 的开源为语音生成开源社区注入了新的活力，其波形潜空间建模路线有望成为下一代 TTS 架构的主流方向。

美团开源 LongCat-AudioDiT：波形潜空间建模刷新语音克隆 SOTA

核心架构：极简两组件

单阶段训练超越多阶段 SOTA

关键发现：Wav-VAE 重建保真度 ≠ TTS 性能

开源信息

OpenClaw 2026.4.5：视频生成、音乐、Dreaming记忆系统

OpenClaw 2026.4.8 更新解读：内存机制重构，安全修复成重点

美团开源 LongCat-AudioDiT：波形潜空间建模刷新语音克隆 SOTA

核心架构：极简两组件

单阶段训练超越多阶段 SOTA

关键发现：Wav-VAE 重建保真度 ≠ TTS 性能

开源信息

OpenClaw 2026.4.5：视频生成、音乐、Dreaming记忆系统

OpenClaw 2026.4.8 更新解读：内存机制重构，安全修复成重点

AI 自学笔记