Kaldi之父在小米憋了什么大招?OmniVoice背后的语音AI野心

2026-05-08 25 0

作者按:这不是一篇客观的技术评测。这是一篇拆局文章。

一、一个人的跳槽,改变了中国语音AI的格局

2019年,一个消息在AI圈炸开了锅:约翰霍普金斯大学教授Daniel Povey,宣布加入小米。

这个名字你可能不熟。但你一定用过他的作品——Kaldi

Kaldi是什么?简单说,它是过去十年全世界最重要的开源语音识别工具包。Google、Amazon、百度、字节……几乎所有做语音的公司,都直接或间接地用过Kaldi的代码。学术界更不用提,语音领域的论文引用Kaldi就像机器学习引用Python一样自然。

一个在学术界封神的人,跑去一家手机公司?很多人不理解。

但Daniel Povey看到了别人没看到的东西:小米有全球最大的IoT设备生态,有小爱同学这个亿级用户的语音入口,还有一个正在崛起的大模型团队。在学术界发论文,影响的是同行;在小米做开源,影响的是整个产业。

他赌对了。

二、Next-gen Kaldi:从一个仓库到一个帝国

加入小米后,Daniel Povey没有躺平。他做了一件事:重写Kaldi

旧版Kaldi基于C++和OpenFst,性能强悍但门槛极高,普通开发者根本玩不转。Povey在小米创立了k2-fsa项目,目标是用PyTorch重新定义语音处理的底层框架。

六年过去,k2-fsa在GitHub上已经是一个庞大的开源帝国:

  • sherpa-onnx:12,000+ Star,离线语音识别框架,支持Android/iOS/嵌入式设备
  • k2:1,300+ Star,可微分FSA/FST算法库
  • sherpa-ncnn:1,600+ Star,基于NCNN的端侧语音识别
  • ZipVoice:970+ Star,基于Flow Matching的高速TTS
  • libriheavy:217 Star,5万小时ASR语料库

而就在2026年4月,k2-fsa放出了最大的一颗炸弹——

三、OmniVoice:600+语言的TTS核弹

2026年4月1日,k2-fsa在arXiv上发布了一篇论文:《OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models》

这不是愚人节玩笑。

OmniVoice是一个支持600+语言的零样本语音合成模型。什么概念?全球已知的语言大约7000种,能覆盖600+的TTS系统,这在人类历史上是第一次。

但更狠的是它的技术路线:

  • 直接映射:传统TTS分两步(文本→语义→声学),OmniVoice一步到位,文本直接到声学token
  • 扩散语言模型:借鉴了图像生成领域的扩散模型思路,但用在了离散token上
  • 全码本随机掩码:训练时随机遮盖所有码本维度,让模型学会从任意缺失中恢复
  • LLM初始化:用预训练大语言模型的权重初始化,直接继承语言理解能力

结果是什么?推理速度是实时的40倍(RTF 0.025),同时在中英文基准测试上达到SOTA。

581k小时的训练数据,全部来自开源社区。没有用小米用户的私人数据,没有爬虫灰色地带。干净、合规、可复现。

四、小米的语音AI野心:一条完整的链路

很多人以为小米做AI就是"小爱同学"。太天真了。

看看小米在语音AI上的布局:

  • 小爱同学:2017年推出,亿级用户的语音入口,中国最早的智能语音助手之一
  • MiMo大模型:小米自研的基础大模型,代码能力进入全球前列
  • k2-fsa生态:sherpa-onnx(12k Star)做端侧推理,OmniVoice(5.4k Star)做语音合成,ZipVoice做高速TTS
  • 硬件生态:手机、音箱、电视、汽车、IoT设备——小米有全球最大的AIoT平台

这意味着什么?小米正在构建一条从模型到硬件、从云端到端侧的完整语音AI链路。

OmniVoice不是终点,它是拼图的关键一块。当600+语言的TTS跑在小米汽车的车机上、小米电视的音箱里、小米手机的小爱同学中——这才是Daniel Povey加入小米的真正意义。

五、开源的阳谋

这里有一个微妙的问题:小米为什么要把这么强的模型开源?

答案是:这不是慈善,这是阳谋。

语音AI的竞争,从来不是单个模型的比拼,而是生态的战争。OpenAI有Whisper,Google有WaveNet,Meta有Voicebox——每一家都在抢开发者、抢标准、抢话语权。

小米开源OmniVoice,本质上是在说:"来,用我的模型,用我的框架,用我的标准。"

当全球开发者都在用k2-fsa的工具链做语音应用时,小米就不再只是一家手机公司。它成了语音AI基础设施的定义者。

Daniel Povey当年从学术界跳到工业界,很多人觉得他"掉价"了。但现在看来,他做的事情比发100篇论文影响都大。

六、一个时代的注脚

2026年5月,OmniVoice在GitHub上已经拿到5,400+ Star。HuggingFace上的模型被全球开发者下载。arXiv上的论文被引用了几十次。

但这些数字不重要。

重要的是:一家中国公司,做出了全世界覆盖语言最多的语音合成模型,并且完全开源。

在中美AI竞争最激烈的时刻,小米没有选择封锁技术,而是选择把技术推向全世界。这不是软弱,这是自信。

Daniel Povey在小米待了六年。这六年,他没有发推特,没有上播客,没有在各种大会上刷存在感。

他只是安静地写代码,安静地训练模型,安静地开源。

然后,世界安静了。


(全文完。本文参考了arXiv论文2604.00688、GitHub k2-fsa/OmniVoice仓库、HuggingFace模型页面等公开资料。)

相关文章

Google 扔出王炸:Googlebook 来了,Chromebook 正式退役,桌面系统进入 Gemini 时代
Google 官方解读:Gemini Intelligence 如何让 Android 变成真正的智能系统
Google 把 Android 变成了 AI 操作系统:Gemini Intelligence 十大功能详解
Google 叫 Gemini Intelligence,苹果叫 Apple Intelligence:AI 系统命名大战开打
AI三国杀变四国大战:马斯克解散xAI背后的格局重塑
OpenClaw v2026.5.7 更新发布