谷歌正式发布 Lyria 3:Gemini 音乐生成功能上线,开启 AI 音频创作新纪元

2026 年 2 月 18 日,谷歌(Google)在美股盘中通过其官方博客宣布了一项突破性更新:Gemini 现已正式集成由 Google DeepMind 开发的最先进音乐生成模型 —— Lyria 3。 这一功能的上线,标志着 Gemini 从文本、图像、视频的处理,正式扩展到了高保真音频创作的全领域,进一步巩固了其在多模态 AI 赛道的领先地位。

一、 Lyria 3:从“听得见”到“高保真”的跨越

作为 Google DeepMind 的心血之作,Lyria 3 并非简单的迭代,而是在底层架构上实现了质的飞跃。相比于此前的 MusicLM,Lyria 3 在以下方面展现了惊人的能力:

  • 全要素生成: 用户只需输入一段简单的文字描述(Prompt),模型即可在 15 秒内生成一段长度为 30 秒 的音轨。这段音乐不仅包含旋律与伴奏,还涵盖了极具情感张力的人声和自动创作的歌词。
  • 极致音质: Lyria 3 支持 48kHz 立体声采样率,音质细腻清晰,完全能够满足播客、短视频背景音乃至商业 Demo 的初步需求。
  • Nano Banana 封面联动: 每一段生成的音乐都会由 Gemini 自动调用 Nano Banana 模型,生成一张符合音乐意境的独家单曲封面图。

二、 创新交互:不仅仅是“文生音乐”

Gemini 音乐生成功能最令人惊喜的特性在于其多模态触发机制。用户不再受限于枯燥的文字指令:

  1. 影音联动: 用户可以上传一张图片或一段视频,Gemini 将识别其中的视觉情绪与场景(如“落日余晖下的公路旅行”),并自动创作一段与之契合的 BGM。
  2. 风格混搭: 无论是 80 年代的复古合成器、现代 K-Pop,还是极简主义的 Lo-fi 节拍,Lyria 3 都能精准捕捉风格精髓。
  3. 模板系统: 谷歌同时推出了灵感画廊,初学者可以通过预设模板快速上手。

三、 责任与版权:SynthID 数字水印的守护

在 AI 音乐版权争议不断的当下,谷歌采取了极其严谨的合规策略。所有由 Lyria 3 生成的音频都默认嵌入了 SynthID 数字水印

什么是 SynthID? 这是一种由 Google DeepMind 研发的不可感知数字水印技术。它直接嵌入音频波形中,不影响音质,但即便音频经过剪辑、重采样或 MP3 压缩,专业检测工具依然能精准识别其 AI 生成的身份。这一举措极大程度地保护了原创者的界限,也为 AI 辅助创作提供了合法的注脚。

四、 行业影响:人人都是“音乐制作人”?

Gemini 音乐功能的上线,预示着内容创作门槛的再次降低:

  • 对短视频创作者: 彻底告别侵权风险,实现“量体裁衣”式的配乐定制。
  • 对独立开发者: 为游戏或 App 开发提供极低成本的音效方案。
  • 对大众用户: 音乐从一种“被动消费品”变成了一种“即时表达工具”。

目前,该功能已率先在 Gemini 桌面版及移动端(测试版)推出,首批支持包括中文、英文、日文在内的多种语言。