Kaldi之父在小米憋了什么大招？OmniVoice背后的语音AI野心|AI 自学笔记

作者按：这不是一篇客观的技术评测。这是一篇拆局文章。

一、一个人的跳槽，改变了中国语音AI的格局

2019年，一个消息在AI圈炸开了锅：约翰霍普金斯大学教授Daniel Povey，宣布加入小米。

这个名字你可能不熟。但你一定用过他的作品——Kaldi。

Kaldi是什么？简单说，它是过去十年全世界最重要的开源语音识别工具包。Google、Amazon、百度、字节……几乎所有做语音的公司，都直接或间接地用过Kaldi的代码。学术界更不用提，语音领域的论文引用Kaldi就像机器学习引用Python一样自然。

一个在学术界封神的人，跑去一家手机公司？很多人不理解。

但Daniel Povey看到了别人没看到的东西：小米有全球最大的IoT设备生态，有小爱同学这个亿级用户的语音入口，还有一个正在崛起的大模型团队。在学术界发论文，影响的是同行；在小米做开源，影响的是整个产业。

他赌对了。

二、Next-gen Kaldi：从一个仓库到一个帝国

加入小米后，Daniel Povey没有躺平。他做了一件事：重写Kaldi。

旧版Kaldi基于C++和OpenFst，性能强悍但门槛极高，普通开发者根本玩不转。Povey在小米创立了k2-fsa项目，目标是用PyTorch重新定义语音处理的底层框架。

六年过去，k2-fsa在GitHub上已经是一个庞大的开源帝国：

sherpa-onnx：12,000+ Star，离线语音识别框架，支持Android/iOS/嵌入式设备
k2：1,300+ Star，可微分FSA/FST算法库
sherpa-ncnn：1,600+ Star，基于NCNN的端侧语音识别
ZipVoice：970+ Star，基于Flow Matching的高速TTS
libriheavy：217 Star，5万小时ASR语料库

而就在2026年4月，k2-fsa放出了最大的一颗炸弹——

三、OmniVoice：600+语言的TTS核弹

2026年4月1日，k2-fsa在arXiv上发布了一篇论文：《OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models》。

这不是愚人节玩笑。

OmniVoice是一个支持600+语言的零样本语音合成模型。什么概念？全球已知的语言大约7000种，能覆盖600+的TTS系统，这在人类历史上是第一次。

但更狠的是它的技术路线：

直接映射：传统TTS分两步（文本→语义→声学），OmniVoice一步到位，文本直接到声学token
扩散语言模型：借鉴了图像生成领域的扩散模型思路，但用在了离散token上
全码本随机掩码：训练时随机遮盖所有码本维度，让模型学会从任意缺失中恢复
LLM初始化：用预训练大语言模型的权重初始化，直接继承语言理解能力

结果是什么？推理速度是实时的40倍（RTF 0.025），同时在中英文基准测试上达到SOTA。

581k小时的训练数据，全部来自开源社区。没有用小米用户的私人数据，没有爬虫灰色地带。干净、合规、可复现。

四、小米的语音AI野心：一条完整的链路

很多人以为小米做AI就是"小爱同学"。太天真了。

看看小米在语音AI上的布局：

小爱同学：2017年推出，亿级用户的语音入口，中国最早的智能语音助手之一
MiMo大模型：小米自研的基础大模型，代码能力进入全球前列
k2-fsa生态：sherpa-onnx（12k Star）做端侧推理，OmniVoice（5.4k Star）做语音合成，ZipVoice做高速TTS
硬件生态：手机、音箱、电视、汽车、IoT设备——小米有全球最大的AIoT平台

这意味着什么？小米正在构建一条从模型到硬件、从云端到端侧的完整语音AI链路。

OmniVoice不是终点，它是拼图的关键一块。当600+语言的TTS跑在小米汽车的车机上、小米电视的音箱里、小米手机的小爱同学中——这才是Daniel Povey加入小米的真正意义。

五、开源的阳谋

这里有一个微妙的问题：小米为什么要把这么强的模型开源？

答案是：这不是慈善，这是阳谋。

语音AI的竞争，从来不是单个模型的比拼，而是生态的战争。OpenAI有Whisper，Google有WaveNet，Meta有Voicebox——每一家都在抢开发者、抢标准、抢话语权。

小米开源OmniVoice，本质上是在说："来，用我的模型，用我的框架，用我的标准。"

当全球开发者都在用k2-fsa的工具链做语音应用时，小米就不再只是一家手机公司。它成了语音AI基础设施的定义者。

Daniel Povey当年从学术界跳到工业界，很多人觉得他"掉价"了。但现在看来，他做的事情比发100篇论文影响都大。

六、一个时代的注脚

2026年5月，OmniVoice在GitHub上已经拿到5,400+ Star。HuggingFace上的模型被全球开发者下载。arXiv上的论文被引用了几十次。

但这些数字不重要。

重要的是：一家中国公司，做出了全世界覆盖语言最多的语音合成模型，并且完全开源。

在中美AI竞争最激烈的时刻，小米没有选择封锁技术，而是选择把技术推向全世界。这不是软弱，这是自信。

Daniel Povey在小米待了六年。这六年，他没有发推特，没有上播客，没有在各种大会上刷存在感。

他只是安静地写代码，安静地训练模型，安静地开源。

然后，世界安静了。

（全文完。本文参考了arXiv论文2604.00688、GitHub k2-fsa/OmniVoice仓库、HuggingFace模型页面等公开资料。）

Kaldi之父在小米憋了什么大招？OmniVoice背后的语音AI野心

📌 相关推荐