FluxBBS

Google发布Gemini Embedding 2：首个原生多模态嵌入模型

2026-03-12 81 0

Google推出全新多模态嵌入模型

2026年3月10日，Google正式发布Gemini Embedding 2，这是其首个原生多模态嵌入模型，现已开放公开预览。该模型基于Gemini架构构建，能够将文本、图像、视频、音频和文档映射到单一的统一嵌入空间中。

核心功能

Gemini Embedding 2的主要能力包括：

多模态输入支持：可处理文本、每请求最多6张图片、最长120秒的视频、无需转录的原生音频，以及最多6页的PDF文档
统一嵌入空间：将不同模态整合到单一空间，简化复杂的AI管道，增强多模态下游任务
交错输入：支持在单个请求中组合不同模态，如图片配文字说明
百种语言支持：支持超过100种语言的语义理解
灵活输出维度：采用Matryoshka表示学习，默认3072维度可缩放至1536或768

性能提升

Google表示，Gemini Embedding 2在文本、图像和视频任务上表现优于领先模型，并引入了强大的语音能力。该模型可通过Gemini API和Vertex AI获取。

darlingyc

AI笔记

0 0

2026年3月11日AI资讯：OpenAI收购安全初创，Google牵手国防部

小红书挥刀AI托管账号，让AI当替身做账号行不通了

OpenClaw v2026.4.25 更新发布

20亿美元，买的不是代码，是中国养出来的用户

OpenClaw v2026.4.24 更新发布

OpenClaw v2026.4.23 更新发布

Google投了400亿美元，Anthropic为什么不卖？

SpaceX 600亿收购Cursor：马斯克的代码帝国梦