Gemini 可以通过对话方式生成和处理图片。你可以通过文字、图片或两者结合的方式向 Gemini 发出提示，从而以前所未有的控制力来创建、修改和迭代视觉内容：

Text-to-Image:：根据简单或复杂的文本描述生成高质量图片。
图片 + Text-to-Image（编辑）：提供图片，并使用文本提示添加、移除或修改元素、更改风格或调整色彩分级。
多图到图（合成和风格迁移）：使用多张输入图片合成新场景，或将一张图片的风格迁移到另一张图片上。
迭代优化：通过对话逐步优化图片，进行细微调整，直到达到理想效果。
高保真文本渲染：准确生成包含清晰易读且位置合理的文本的图片，非常适合用于徽标、图表和海报。

图片生成（文本转图片）

以下代码演示了如何根据描述性提示生成图片。

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = (
    "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
)

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt],
)

for part in response.candidates[0].content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

AI 生成的图片：一家以 Gemini 为主题的餐厅中的纳米香蕉菜肴

图片修改（文本和图片转图片）

提醒：请确保您对上传的所有图片均拥有必要权利。请勿生成侵犯他人权利的内容（包括用于欺骗、骚扰或伤害他人的视频或图片）。使用此生成式 AI 服务时须遵守我们的《使用限制政策》。

以下示例演示了如何上传以 base64 编码的图片。如需了解多张图片、较大载荷和支持的 MIME 类型，请参阅图片理解页面。

**Python JavaScript Go REST**

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = (
    "Create a picture of my cat eating a nano-banana in a "
    "fancy restaurant under the Gemini constellation",
)

image = Image.open("/path/to/cat_image.png")

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

AI 生成的猫吃迷你香蕉的图片

其他图片生成模式

Gemini 还支持其他基于提示结构和上下文的图片互动模式，包括：

文生图和文本（交织）：输出包含相关文本的图片。
- 提示示例：“生成一份图文并茂的海鲜饭食谱。”
图片和文本转图片和文本（交织）：使用输入图片和文本创建新的相关图片和文本。
- 提示示例：（附带一张带家具的房间的照片）“我的空间还适合放置哪些颜色的沙发？你能更新一下图片吗？”
多轮图片修改（聊天）：以对话方式持续生成和修改图片。
- 提示示例：[上传一张蓝色汽车的图片。]，“把这辆车变成敞篷车”，“现在将颜色更改为黄色。”

提示指南和策略

要掌握 Gemini 2.5 Flash 图片生成功能，首先要了解一个基本原则：

描述场景，而不仅仅是列出关键字。该模型的核心优势在于其深厚的语言理解能力。与一连串不相关的字词相比，叙述性描述段落几乎总是能生成更好、更连贯的图片。

用于生成图片的提示

以下策略将帮助您创建有效的提示，从而生成您想要的图片。

1. 逼真场景

对于逼真的图片，请使用摄影术语。提及拍摄角度、镜头类型、光线和细节，引导模型生成逼真的效果。

**模板提示 Python**

A photorealistic [shot type] of [subject], [action or expression], set in
[environment]. The scene is illuminated by [lighting description], creating
a [mood] atmosphere. Captured with a [camera/lens details], emphasizing
[key textures and details]. The image should be in a [aspect ratio] format.

一位年长的日本陶艺家的照片级写实特写肖像...

2. 风格化插画和贴纸

如需创建贴纸、图标或素材资源，请明确说明样式并要求使用透明背景。

**模板提示 Python**

A [style] sticker of a [subject], featuring [key characteristics] and a
[color palette]. The design should have [line style] and [shading style].
The background must be transparent.

一张可爱风格的贴纸，上面是一只快乐的小熊猫...

3. 图片中的文字准确无误

Gemini 在渲染文本方面表现出色。清楚说明文字、字体样式（描述性）和整体设计。

**模板提示 Python**

Create a [image type] for [brand/concept] with the text "[text to render]"
in a [font style]. The design should be [style description], with a
[color scheme].

为一家名为“The Daily Grind”的咖啡店设计一个现代简约的徽标...

4. 产品模型和商业摄影

非常适合为电子商务、广告或品牌宣传制作清晰专业的商品照片。

**模板提示 Python**

A high-resolution, studio-lit product photograph of a [product description]
on a [background surface/description]. The lighting is a [lighting setup,
e.g., three-point softbox setup] to [lighting purpose]. The camera angle is
a [angle type] to showcase [specific feature]. Ultra-realistic, with sharp
focus on [key detail]. [Aspect ratio].

一张极简陶瓷咖啡杯的高分辨率产品照片，采用工作室灯光...

5. 极简风格和负空间设计

非常适合用于创建网站、演示或营销材料的背景，以便在其中叠加文字。

**模板提示 Python**

A minimalist composition featuring a single [subject] positioned in the
[bottom-right/top-left/etc.] of the frame. The background is a vast, empty
[color] canvas, creating significant negative space. Soft, subtle lighting.
[Aspect ratio].

一幅极简主义构图，画面中只有一片精致的红枫叶...

6. 连续艺术（漫画分格 / 故事板）

以角色一致性和场景描述为基础，为视觉故事讲述创建分格。

**模板提示 Python**

A single comic book panel in a [art style] style. In the foreground,
[character description and action]. In the background, [setting details].
The panel has a [dialogue/caption box] with the text "[Text]". The lighting
creates a [mood] mood. [Aspect ratio].

采用粗犷的黑色电影艺术风格的单幅漫画书画面...

用于修改图片的提示

以下示例展示了如何提供图片以及文本提示，以进行编辑、构图和风格迁移。

1. 添加和移除元素

提供图片并描述您的更改。模型将与原始图片的风格、光照和透视效果相匹配。

**模板提示 Python**

Using the provided image of [subject], please [add/remove/modify] [element]
to/from the scene. Ensure the change is [description of how the change should
integrate].

2. 局部重绘（语义遮盖）

通过对话定义“蒙版”，以修改图片的特定部分，同时保持其余部分不变。

**模板提示 Python**

Using the provided image, change only the [specific element] to [new
element/description]. Keep everything else in the image exactly the same,
preserving the original style, lighting, and composition.

3. 风格迁移

提供一张图片，并让模型以不同的艺术风格重新创作其内容。

**模板提示 Python**

Transform the provided photograph of [subject] into the artistic style of [artist/art style]. Preserve the original composition but render it with [description of stylistic elements].

4. 高级合成：组合多张图片

提供多张图片作为上下文，以创建新的合成场景。这非常适合制作产品模型或创意拼贴画。

**模板提示 Python**

Create a new image by combining the elements from the provided images. Take
the [element from image 1] and place it with/on the [element from image 2].
The final image should be a [description of the final scene].

5. 高保真细节保留

为确保在编辑过程中保留关键细节（例如面部或徽标），请在编辑请求中详细描述这些细节。

**模板提示 Python**

Using the provided images, place [element from image 2] onto [element from
image 1]. Ensure that the features of [element from image 1] remain
completely unchanged. The added element should [description of how the
element should integrate].

最佳做法

如需将效果从“好”提升到“出色”，请将以下专业策略融入您的工作流程。

内容要非常具体：您提供的信息越详细，您就越能掌控结果。不要使用“奇幻盔甲”，而是详细描述：“华丽的精灵板甲，蚀刻有银叶图案，带有高领和猎鹰翅膀形状的肩甲。”
提供背景信息和意图：说明图片的用途。模型对上下文的理解会影响最终输出。例如，“为高端极简护肤品牌设计徽标”会比“设计徽标”产生更好的结果。
迭代和优化：不要期望第一次尝试就能生成完美的图片。利用模型的对话特性进行小幅更改。然后，您可以继续提出提示，例如“效果很棒，但能让光线更暖一些吗？”或“保持所有内容不变，但让角色的表情更严肃一些。”
使用分步说明：对于包含许多元素的复杂场景，请将提示拆分为多个步骤。“首先，创作一幅清晨薄雾笼罩的宁静森林背景。然后，在前景色中添加一个长满苔藓的古老石祭坛。最后，在祭坛上放置一把发光的剑。”
使用“语义负提示”：不要说“没有汽车”，而是积极地描述所需的场景：“一条空旷的荒凉街道，没有任何交通迹象。”
控制相机：使用摄影和电影语言来控制构图。例如**wide-angle shot、macro shot、low-angle perspective**等字词。

限制

为获得最佳性能，请使用以下语言：英语、西班牙语（墨西哥）、日语（日本）、中文（中国）、印地语（印度）。
图片生成不支持音频或视频输入。
模型不一定会完全按照用户明确要求的图片输出数量生成图片。
该模型在输入最多 3 张图片时效果最佳。
在为图片生成文字时，最好先生成文字，然后再要求生成包含该文字的图片，这样 Gemini 的效果会更好。
目前，欧洲经济区 (EEA)、瑞士 (CH) 和英国 (UK) 不支持上传儿童照片。
所有生成的图片都包含 SynthID 水印。

何时使用 Imagen

除了使用 Gemini 的内置图片生成功能外，您还可以通过 Gemini API 访问我们专门的图片生成模型 Imagen。

属性	Imagen	Gemini 原生图片
优势	迄今为止功能最强大的图片生成模型。建议用于生成逼真的图像、提高清晰度、改进拼写和排版。	默认建议。无与伦比的灵活性、情境理解能力以及简单易用的无蒙版编辑功能。能够进行多轮对话式编辑。
可用性	已全面推出	预览版（允许用于生产环境）
延迟时间	低：针对近乎实时的性能进行了优化。	提高。其高级功能需要更多计算资源。
费用	可经济高效地完成专业任务。$0.02/图片至 $0.12/图片	基于 token 的定价。图片输出每 100 万个 token 的费用为 30 美元（图片输出的 token 数固定为每张图片 1, 290 个 token，最高分辨率为 1024x1024 像素）
推荐的任务	• 图片质量、写实程度、艺术细节或特定风格（例如印象派、动漫）是首要考虑因素。
• 融入品牌元素、风格，或生成徽标和产品设计。
• 生成高级拼写或排版。	• 生成交织的文本和图片，实现文本和图片的无缝融合。
• 通过单个提示组合多张图片中的广告素材元素。
• 对图片进行高度精细的修改，使用简单的语言命令修改单个元素，并以迭代方式处理图片。
• 将一张图片中的特定设计或纹理应用到另一张图片，同时保留原始对象的外形和细节。

Imagen 4 应该是您开始使用 Imagen 生成图片的首选模型。如果需要处理高级用例或需要最佳图片质量，请选择 Imagen 4 Ultra（请注意，该模型一次只能生成一张图片）。

Nano Banana 官方提示词指南

图片生成（文本转图片）

图片修改（文本和图片转图片）

其他图片生成模式

提示指南和策略

用于生成图片的提示

1. 逼真场景

2. 风格化插画和贴纸

3. 图片中的文字准确无误

4. 产品模型和商业摄影

5. 极简风格和负空间设计

6. 连续艺术（漫画分格 / 故事板）

用于修改图片的提示

1. 添加和移除元素

2. 局部重绘（语义遮盖）

3. 风格迁移

4. 高级合成：组合多张图片

5. 高保真细节保留

最佳做法

限制

何时使用 Imagen

相关文章

Nano Banana 官方提示词指南

图片生成（文本转图片）

📌 相关推荐

图片修改（文本和图片转图片）

其他图片生成模式

提示指南和策略

用于生成图片的提示

1. 逼真场景

2. 风格化插画和贴纸

3. 图片中的文字准确无误

4. 产品模型和商业摄影

5. 极简风格和负空间设计

6. 连续艺术（漫画分格 / 故事板）

用于修改图片的提示

1. 添加和移除元素

2. 局部重绘（语义遮盖）

3. 风格迁移

4. 高级合成：组合多张图片

5. 高保真细节保留

最佳做法

限制

何时使用 Imagen

相关文章