Google发布Gemini Embedding 2:首个原生多模态嵌入模型

2026-03-12 8 0

Google推出全新多模态嵌入模型

2026年3月10日,Google正式发布Gemini Embedding 2,这是其首个原生多模态嵌入模型,现已开放公开预览。该模型基于Gemini架构构建,能够将文本、图像、视频、音频和文档映射到单一的统一嵌入空间中。

核心功能

Gemini Embedding 2的主要能力包括:

  • 多模态输入支持:可处理文本、每请求最多6张图片、最长120秒的视频、无需转录的原生音频,以及最多6页的PDF文档
  • 统一嵌入空间:将不同模态整合到单一空间,简化复杂的AI管道,增强多模态下游任务
  • 交错输入:支持在单个请求中组合不同模态,如图片配文字说明
  • 百种语言支持:支持超过100种语言的语义理解
  • 灵活输出维度:采用Matryoshka表示学习,默认3072维度可缩放至1536或768

性能提升

Google表示,Gemini Embedding 2在文本、图像和视频任务上表现优于领先模型,并引入了强大的语音能力。该模型可通过Gemini API和Vertex AI获取。

相关文章

炸裂!Yann LeCun退出Meta创立新公司,炮轰LLM是”死胡同”,押注世界模型
GPT-5.4 发布:首个能直接操作计算机的通用AI模型
英伟达宣布投入260亿美元!开源AI进入新时代
小红书挥刀AI托管账号,让AI当替身做账号行不通了
2026年3月11日AI资讯:OpenAI收购安全初创,Google牵手国防部
Meta收购Moltbook:AI代理社交平台获巨头青睐