美团开源 LongCat-AudioDiT:波形潜空间建模刷新语音克隆 SOTA

2026-04-09 11 0

美团 LongCat 团队于 2026 年 3 月 31 日正式发布并开源了全新音频生成模型 LongCat-AudioDiT(1B / 3.5B 两个参数版本)。该模型彻底抛弃传统 TTS 系统中的梅尔频谱(Mel-Spectrogram)等中间表示,首次在业界实现直接在波形潜空间(Waveform Latent Space)内完成端到端文本转语音,开源地址见文章末尾。

核心架构:极简两组件

LongCat-AudioDiT 的架构极为精简,仅包含两大核心模块:

  • Wav-VAE(波形变分自编码器):将 24kHz 原始波形信号压缩 2000 倍,降至 11.7Hz 的潜空间帧率,大幅降低计算量的同时保留语音的细粒度声学信息;
  • DiT(扩散 Transformer):以 Transformer 为骨干网络,在上述潜空间中执行非自回归扩散采样,直接从文本 tokens 生成高质量语音波形。

文本侧采用 UMT5(多语言版 T5)作为文本编码器,融合原始词嵌入与顶层隐藏状态,补齐音素细节,支撑中英文等多语言场景。

单阶段训练超越多阶段 SOTA

传统 TTS 通常采用「预测声学特征 + 神经声码器」的多阶段流程,每一阶段都会引入误差累积。LongCat-AudioDiT 另辟蹊径,在仅使用 ASR 转录数据进行单阶段训练的前提下,就在零样本语音克隆任务上超越了此前需复杂多阶段训练的前 SOTA 模型 Seed-TTS

模型 Seed-ZH 相似度 (SIM) Seed-Hard 相似度 (SIM)
Seed-TTS(此前 SOTA) 0.809 0.776
LongCat-AudioDiT-3.5B 0.818 0.797

3.5B 版本在中英文双语的说话人相似度指标上均有显著提升,同时维持了极具竞争力的语音可懂度(WER / CER)。

关键发现:Wav-VAE 重建保真度 ≠ TTS 性能

LongCat 团队在论文中提到了一个反直觉的消融实验结论:Wav-VAE 的重建保真度越高,并不一定带来更好的整体 TTS 效果。这说明波形潜空间的设计空间仍有大量未知规律等待探索,也凸显了 LongCat-AudioDiT 架构选择的独到之处。

开源信息

LongCat-AudioDiT 的开源为语音生成开源社区注入了新的活力,其波形潜空间建模路线有望成为下一代 TTS 架构的主流方向。

相关文章

MiniMax 发布 MMX-CLI:为 Agent 设计的全模态命令行工具
OpenClaw 2026.4.8 更新解读:内存机制重构,安全修复成重点
🎯 Claude Skills 打造完全指南:中文小白友好版(官方原文翻译整理)
阿里发布Qwen3.6-Plus:国产编程模型能力登顶,逼近Claude系列
Google Gemma 4 正式发布:迄今最强大的开源大模型来了
国行iPhone AI智能正式上线!