通义千问发布新一代语音识别模型Qwen3‑ASR‑Flash:支持多语言与方言的高精度识别

2025-10-26 184 0

近日,阿里旗下通义千问团队推出了新一代语音识别模型Qwen3‑ASR‑Flash。该模型以Qwen3为底座,结合了千万小时级别的多模态与语音识别数据,在识别精度和鲁棒性上显著提升,支持11种语言及多种方言,在中英文及多语种基准测试中取得领先成绩。

业内人士认为,新模型不仅强化了通义千问在语音领域的技术布局,也为多语种、多场景的语音转文字服务带来了新的可能。

如果希望体验这一模型,可以通过以下入口:

  • ModelScope演示:https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
  • HuggingFace演示:https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
  • 阿里云百炼API:https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

这一模型的出现有望进一步推动语音识别在教育、内容创作、客服等多个行业的应用。

相关文章

年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?
深夜炸场!智谱AutoGLM正式开源:打造国产最强AI Agent,手机网页操作能力全面解禁
阿里 AIDC 重磅发布 Ovis-Image:7B 参数挑战 GPT-4o,重新定义 AI 文本渲染
DeepSeek V3.2 正式发布:超越 GPT-5 水平,重新定义 AI Agent 推理能力
Z-Image Turbo重磅发布:通义万相引领AI绘图进入“秒级”高速时代
Black Forest Labs 发布 FLUX.2:重塑图像生成行业的新“真实时代”