博客

  • Qwen-Image-2.0:重定义 AI 视觉创作新标准

    Qwen-Image-2.0:重定义 AI 视觉创作新标准

    1. 核心架构与技术升级

    Qwen-Image-2.0 放弃了传统生图模型笨重的架构,采用了更轻量化且高效的底层设计。其最显著的突破在于**“生改合一”**:

    • 一体化架构: 首次将图像生成(Text-to-Image)与图像编辑(Image Editing)整合进同一个模型,解决了以往需要多个模型协同导致的风格不统一问题。
    • 原生 2K 高分辨率: 支持原生 2K(2048×2048)超清输出,细节刻画能力对比前代 Qwen-Image-2512 有了质的提升。
    • 超长指令遵循(1K Token): 模型支持长达 1000 个 Token 的复杂提示词输入。这意味着用户可以像写小说一样描述画面细节,模型能够精准还原每一处逻辑。

    2. 三大颠覆性功能特性

    A. 行业领先的文本渲染(尤其是中文)

    AI 生图模型一直难以处理图片中的文字,而 Qwen-Image-2.0 展现了惊人的文本掌控力:

    • 复杂排版: 能够直接生成带有精准文字的 PPT 页面、信息图表和海报。
    • 长文本渲染: 官方演示中,该模型能将数百字的《兰亭集序》全文准确无误地“书写”在背景中,且字迹清晰、排版合理。

    B. 摄影级真实质感

    针对 AI 图片常见的“油腻感”和“塑胶感”,2.0 版本进行了专项优化:

    • 自然光影: 画面更接近单反实拍,皮肤毛孔、织物纹理等微观细节清晰可见。
    • 去 AI 味: 色彩饱和度与对比度调整至更符合人类审美,大幅减少了过往模型生成的违和感。

    C. 连环画与多图一致性

    Qwen-Image-2.0 支持一次性渲染数十个子图,并保持画面中人物、场景、艺术风格的高度一致,这为漫画创作者和脚本师提供了极大便利。

    性能对标:全球视野下的竞争力

    在权威的 AI 盲测平台 AI Arena 的最新榜单中,Qwen-Image-2.0 的表现非常强劲:

    评测维度Qwen-Image-2.0 得分全球排名竞品对比
    文生图 (T2I)1029第 3 名超过 Seedream 4.5, Flux2-Max
    图像编辑极高评分第 2 名仅次于 Google Nano Banana Pro

    专家点评: 虽然在极端写实度上与谷歌的 Nano Banana Pro 仍有微小差距,但在中文语义理解复杂文字排版上,Qwen-Image-2.0 目前是无可争议的全球第一。

    如何立即体验 Qwen-Image-2.0?

    目前,阿里巴巴已开放多渠道供开发者和普通用户使用:

    1. Qwen Chat (官方网页端): 访问 chat.qwen.ai 即可免费体验生图与改图功能。
    2. 阿里云百炼平台: API 邀测已开启,企业用户可集成其生图能力到自有业务中。
    3. 通义 App: 预计近期将完成移动端更新。

    结语与未来展望

    Qwen-Image-2.0 的发布标志着 AI 绘画从“随机艺术生成”进化到了“生产力精准控制”阶段。它不再只是一个有趣的玩具,而是一个能真正处理 PPT 设计、专业摄影模拟和长文本排版的生产力工具。

  • 生成式 AI 新霸主?Black Forest Labs 重磅发布 FLUX.2 [klein]:亚秒级出图,仅需 13GB 显存

    生成式 AI 新霸主?Black Forest Labs 重磅发布 FLUX.2 [klein]:亚秒级出图,仅需 13GB 显存

    在 AI 绘图领域,速度与质量往往难以兼得。但就在本周(2026年1月15日),大名鼎鼎的“黑森林实验室”(Black Forest Labs)再次投下一枚震撼弹——正式发布 FLUX.2 [klein] 模型家族。

    如果你还在为上一代模型的高显存需求和缓慢的生成速度而犹豫,那么 FLUX.2 [klein] 可能会彻底改变你的工作流。这款被社区误传为“Kevion”的新模型,实际上取名自德语单词“Klein”(意为“小”),不仅在体积上更轻量,更在性能上实现了质的飞跃。

    什么是 FLUX.2 [klein]?

    FLUX.2 [klein] 是 Black Forest Labs 推出的最新一代“整流流(Rectified Flow)”变压器模型。它的核心目标非常明确:在消费级硬件上实现“交互式”视觉智能。

    这就意味着,AI 绘图不再是“输入提示词 -> 等待喝杯咖啡 -> 查看结果”的离线过程,而是变成了近乎实时的创作体验。

    核心亮点:为什么它值得关注?

    1. 惊人的“亚秒级”速度

    FLUX.2 [klein] 最引以为傲的就是速度。在现代 GPU 上,它能在 0.5 秒内 完成图像生成或编辑。相比于前代产品或竞品动辄数秒甚至数十秒的等待时间,这种“跟手”的响应速度让设计师能够快速迭代创意。

    2. 对消费级显卡极度友好

    对于独立创作者来说,硬件门槛一直是痛点。

    • 4B 版本(40亿参数): 仅需约 13GB VRAM 即可运行。这意味着 RTX 3090、4070 Ti Super 甚至部分 4070 用户都能在本地流畅跑起来。
    • 9B 版本(90亿参数): 提供更高质量的细节,同时保持了优秀的推理效率。

    3. “生成+编辑”合二为一

    以往我们可能需要一个模型来生图,另一个模型(如 ControlNet)来修图。FLUX.2 [klein] 采用统一架构,同一个模型既能高质量文生图(Text-to-Image),也能进行精准的图生图(Image-to-Image)和多图参考生成。

    4. 开源与商业许可

    • 4B 模型: 采用 Apache 2.0 许可证,这意味着它对开发者极其友好,可直接用于商业用途,甚至集成到自己的应用中。
    • 9B 模型: 开放权重,适合追求极致画质的研究者和发烧友。

    实测表现:画质缩水了吗?

    根据早期的社区反馈和官方演示,虽然模型体积变小了,但在美学评分(Elo Score)上,FLUX.2 [klein] 依然位于第一梯队。它继承了 FLUX 系列一贯的优秀提示词遵循能力(Prompt Adherence),特别是在处理复杂的光影、文字渲染和手指细节上,依然吊打许多更大参数量的模型。


    总结:AI 绘图进入“实时时代”

    Black Forest Labs 此次发布的 FLUX.2 [klein] 不仅仅是一个新模型,它标志着 AI 绘图工具正从“尝鲜玩具”向“生产力工具”迈进。当生成一张高质量图片只需要 0.5 秒时,它将不仅仅改变插画师的工作,更可能重塑游戏开发、实时视频特效等行业的未来。

    你准备好在本地部署你的第一个 FLUX.2 模型了吗?

  • 年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?

    12月16日,Black Forest Labs 毫无预兆地抛出了一枚重磅炸弹——Flux.2 [max] 正式发布。这次发布堪称一次彻底的突袭,因为在早期的官方路线图中,Flex 版本曾被定为旗舰,而 [max] 的横空出世,直接打破了既有的产品天花板,重新定义了 Flux 系列的最高标准。

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    根据官方发布的最新模型矩阵,Flux.2 的生态布局已彻底清晰:

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    在 [max] 的众多升级点中——包括极致的性能、跨任务编辑的一致性、以及最强的提示词跟随能力——最吸引我注意的是“基础搜索(Grounding Search)”功能。从对比表中可见,这是 [max] 版本的独有功能。这意味着 Flux 不再只是基于训练数据回忆,而是能实时联网查阅。当用户要求生成即时新闻、流行单品或最新时尚趋势时,它能通过搜索获取实时信息进行可视化,极大地补全了“世界知识”这一短板。

    在最新的 LMArena 榜单上,Flux-2-Max 目前位居文生图第 4 名,图像编辑第 11 名

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室
    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    302.AI 现已接入 Flux.2 [max] API。 随着这位超新星的登场,2025 年末的图像模型终局之战正式打响。能有资格站在 Flux.2 [max] 对面的,依然是那两位老对手:GPT-Image-1.5Nano Banana Pro。究竟是搜索外挂更强,还是老牌霸主更稳?评测开始。


    I. 实测模型基础信息

    (1)各实测模型在 302.AI 的价格:

    模型名称说明302.AI内的价格
    Flux.2 [max]Generations(生成图片)文字输出输入$5/ 1M tokens输出$10/ 1M tokens
    图片输出输入$5/ 1M tokens输出$32/ 1M tokens
    Edit(修改图片)文字输入输入$5/ 1M tokens输出$32/ 1M tokens
    图片输入输入$8/ 1M tokens输出$32/ 1M tokens
    GPT-Image-1.5Generations(生成图片)图片输出输入$5 / 1M tokens输出$32 / 1M tokens
    文字输出输入$5 / 1M tokens输出$10 / 1M tokens
    Edit(修改图片)图片输出输入$5 / 1M tokens输出$32 / 1M tokens
    文字输出输入$8 / 1M tokens输出$32 / 1M tokens
    Nano Banana Pro输入$2 / 1M Tokens输出$120 / 1M Tokens
    (1K/2K)$0.14 / 次

    (2)测评目标:

    • 生成质量与真实感:评估各模型在图像生成和图像编辑后的视觉效果,包括提示词遵循、细节表现、以及是否存在伪影或失真等。
    • 指令理解与执行准确性:测试模型对文本或图像指令的理解能力,检查编辑结果是否准确反映用户意图。

    (3)测评工具:

    • 所有模型均使用 302.AI 的 API 超市→在线调试功能

    (4)测评方法:

    各案例均使用统一的提示词和图片进行生成,均取第一次生成结果,评测结果仅供参考。


    Ⅱ. 测评案例

    案例 1:文生图-世界知识

    测试点:世界知识,人物拟真,美学

    提示词:Realistic photo shot by Nikon FM2 taken at 52°31′N 13°23′E on Nov 9, 1989. Crowd perspective.

    真实事件:推倒柏林墙

    翻译:

    拍摄于1989年11月9日,地点北纬52°31′东经13°23′,使用尼康FM2相机拍摄的现实主义风格照片。人群视角。

    Flux-2-Max

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    GPT-Image-1.5

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    Nano Banana Pro

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    附现实参考:

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室
    测评点Flux-2-MaxGPT-Image-1.5Nano Banana Pro
    事件准确度★★★★★★★★★★★★★★★
    画面拟真度★★★★★★★★★★★★★★★
    画面美感★★★★★★★★★★★★★
    简评GPT-Image-1.5略胜。更多是主观审美的一场对比,哪张获胜都不算意外。结合史实照片,无论是墙体本身构造,背景的柏林登堡门,群众穿着,汽车型号,都符合当时历史。我选GPT是因为这张高噪点带来的粗粝质感更符合胶片摄影风格,具有年代感,构图规整,但人物动作丰富。

    案例 2:文生图-信息图制作

    测试点:世界知识,文字渲染,构图排版

    提示词

    迪士尼经典的平面手绘风格,制作疯狂动物城2的主要人物关系信息图,使用中文描述。

    Flux-2-Max

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    GPT-Image-1.5

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    Nano Banana Pro

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室
    测评点Flux-2-MaxGPT-Image-1.5Nano Banana Pro
    信息准确度★★★★★★★★★
    风格准确度★★★★★★★★★★★
    中文文字生成★★★★★★★★★★★
    简评Nano Banana Pro。NBP的关系图处理非常聪明,将反派模糊泛化为一个不明形象,一并标记为主角团的“新威胁”,在基础的文字和风格准确性上发挥无误,但漏洞在于右下角生成了一个影片中不存在的角色,且第二部最重要的新角色“蛇盖瑞”也并未体现;GPT和Flux的作品分别出现了文字乱码、关系标注混乱和风格化不符的现象,尤其Flux甚至出现角色与名称不符的问题。

    案例 3:文生图-人像摄影

    测试点:世界知识,人像拟真

    提示词

    Masterpiece, best quality, historical photo, large format film photography (8×10 analog plate), The Beatles performing their famous rooftop concert in London, 1969.

    Location: The rooftop of Apple Corps building, Savile Row, London.

    Background: Overcast grey London sky, cold winter day, blurry London chimneys and brick rooftops in the distance.

    Vibe: Raw, candid, documentary style, wind blowing their hair and coats.

    Camera: Shot on a Linhof large format camera, Kodak Portra 400 film stock.

    Quality: Incredible detail in fabric textures (fur, wool), realistic film grain, soft natural overcast lighting, depth of field slightly blurring the background buildings.

    翻译:

    大师级作品,最佳品质,历史照片,大画幅胶片摄影(8×10 模拟底片),1969年披头士乐队在伦敦进行著名的屋顶演唱会。

    地点: 伦敦萨维尔街苹果公司大楼屋顶。

    背景: 伦敦阴沉的灰色天空,寒冷的冬日,远处模糊的伦敦烟囱和砖砌屋顶。

    氛围: 原始、自然、纪实风格,风吹动着他们的头发和外套。

    相机: 使用Linhof大画幅相机,柯达 Portra 400 胶卷拍摄。

    品质: 织物纹理(毛皮、羊毛)细节惊人,逼真的胶片颗粒感,柔和的自然阴天光线,景深使背景建筑略微模糊。

    Flux-2-Max

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    GPT-Image-1.5

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    Nano Banana Pro

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    附现实参考:

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室
    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    社媒用户评论(社媒图片顺序为GPT, NBP, Flux)

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室
    测评点Flux-2-MaxGPT-Image-1.5Nano Banana Pro
    细节准确度★★★★★★★★★★
    人物拟真度★★★★★★★★★★★★
    画面美感★★★★★★★★★★★★
    简评Nano Banana Pro胜。在模型都能准确还原事件的人物,地点的基础上,是对细节的极致考量。这则案例我分享到了XHS,老乐迷不难识别出问题:列侬有无胡子,琴的颜色(3张都错),保罗是左手琴(NBP正确). Flux的人物相似度最差,GPT最具摄影质感,NBP细节最准确,像是当年照片的4K高清修复。

    案例 4:图生图-营销物料

    测试点:世界知识,摄影拟真

    提示词

    A bottle of Bombay Sapphire Gin submerged in crystal clear water, caustic light patterns dancing across surface, underwater photography, pristine clarity, suspended weightlessness, aquatic elegance, high-speed capture, refreshing aesthetic. Add the relevant brand logo and slogan for marketing use.

    翻译:

    一瓶孟买蓝宝石金酒沉入清澈透明的水中,水面跃动着焦散光影,水下摄影,极致纯净,悬浮的失重感,水中优雅,高速捕捉,清爽美学。添加相应品牌标识及宣传语以供市场营销使用。

    Flux-2-Max

    触发版权审核,“Bombay Sapphire Gin”这个注册商标产品,拒绝生成,去官网尝试亦然。这就比较迷了,上面案例迪士尼和Beatles可都是最头部的版权大户。

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    将提示词主体改为“A green glass bottle of beer ”,生成成功。

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    GPT-Image-1.5

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    logo方法参考:

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    Nano Banana Pro

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    现实参考:

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室
    测评点Flux-2-MaxGPT-Image-1.5Nano Banana Pro
    主体拟真度★★★★★★★★★★★★★
    文字渲染★★★★★★★★★★★★★
    画面美感★★★★★★★★★★★★
    简评GPT-Image-1.5胜。胜点:构图&文案排版合理,文字清晰,背景&色彩绚丽,独一档,但可惜商标Logo的人物细节崩坏,没能完美。NBP相比之下,色调,排版,以及生成的多余的水草,都在美学上稍逊一筹。

    案例 5:图生图-人物一致性

    测试点:特定角度,人像拟真,人物一致性

    提示词

    This high-resolution bird’s-eye view photograph was taken with a LOMO Ic-a. The ground is covered with countless black and white billboard advertisements of the actress Shuqi, and standing on top of the advertisements is the characters from the reference picture.

    翻译:

    高分辨率鸟瞰图,采用 LOMO Ic-a 拍摄。

    地面上铺满了无数舒淇的黑白广告牌,参考图片中的角色正站在这些广告之上。

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    Flux-2-Max

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    GPT-Image-1.5

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    Nano Banana Pro

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室
    测评点Flux-2-MaxGPT-Image-1.5Nano Banana Pro
    人物一致性★★★★★★★★★★★★
    画面拟真度★★★★★★★★★★★★
    画面美感★★★★★★★★★★
    简评GPT-Image-1.5胜。依次来说:Flux人物肤色明显发生偏移,背景中海报上的舒淇出现各种“崩坏”;GPT的肤色偏冷白皮,视觉讨喜,人物表情高度还原参考图,不足就是背景的照片过于单一;NBP则明显想炫技,背景海报生成了大量不同造型的舒淇,但问题就在于随之而来的大量AI文字,破坏了氛围。

    案例 6:图生图-多图编辑

    测试点:多图融合,风格迁移,一致性

    提示词

    将图1的人物换为图2的人物,保持图1人物的动作;

    将图3的印花置于图二人物的长袖卫衣上;

    将图4的帽子和图5的裤子给图2的人物穿上;

    最后将原始的黑白照片处理为彩色照片。

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室
    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    Flux-2-Max

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    GPT-Image-1.5

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    Nano Banana Pro

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    附模特面部放大参考:

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室
    测评点Flux-2-MaxGPT-Image-1.5Nano Banana Pro
    细节一致性★★★★★★★★★★★
    画面拟真度★★★★★★★★★★★★★★★
    画面美感★★★★★★★★★★★★★★
    简评Flux-2-Max胜。核心差异:1.图2模特身穿的是长袖(GPT,NBP错误);2.人物的姿势和角度(人物略侧身,歪头),Flux的一致性最佳(GPT改变了焦距,NBP人物为正面);3.上色处理,Flux背景墙片冷色调,视觉上略显单调,NBP处理得最好,美感最佳。

    III. Flux.2 Max 图像模型实测结论

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    实测结果汇总:

    年终图像模型对局:加了联网搜索功能的Flux-2-Max,会是新霸主么?丨302.AI 基准实验室

    在本轮与 GPT-Image-1.5 和 Nano Banana Pro 的年末决战中,Flux-2-Max 的表现称得上亮眼。作为Flux的旗舰模型,它在实战中的表现呈现出了比较鲜明的特性。

    1. 核心优势:优秀的结构一致性与细节还原

    Flux-2-Max 在涉及多图编辑的任务中,展现了不俗的实力。在案例6,最考验模型逻辑的多图融合任务中,Flux-2-Max 表现亮眼:无论从人物服装细节,到姿势构图,在Feature Consistency(特征一致性)这一核心技术指标上,Flux-2-Max 完全不输甚至优于另两位天花板模型。

    1. 致命短板:还不够准的“世界观”与美学短板

    与其卓越的结构能力形成鲜明对比的,是它在认知层面的不足。

    世界知识的不足(案例2、3): 尽管有搜索功能,但在生成历史人物(如列侬)或复杂信息图时,Flux-2-Max 的表现并不尽如人意。人物相似度最低(案例3披头士),角色名称与图像不符(案例2动物城),出现大量文字乱码。这说明它的搜索功能并未有效转化为对画面内容的精准控制。

    审美掉队(案例4、5): 在需要“网感”和美学设计的营销物料和人像任务中,Flux-2-Max 显得不够高级,讨喜。人物肤色偏移、背景元素崩坏、排版缺乏美感。相比 GPT 的美学和 NBP 的炫技,Flux 的画面显得生硬且缺乏吸引力。

    按需求场景来说,如果需要极高精准度的图像编辑、多图融合、以及对人物姿态/服装特征有严格要求的工业级工作流,那么Flux-2-Max值得一试。

    如果需要生成具体的历史名人、复杂信息图表、极具美感的营销海报,或者任何依赖“世界常识”的信息图表,尤其是涉及中文的信息,并不推荐这款模型。目前的 Flux-2-Max 更像是一个强大的后端渲染引擎,而非一个全能的创意总监。它适合作为生产管线中的一环(如一致性),而不适合独立完成从创意到交付的全流程。

  • Nano banana pro 完全指南

    Google DeepMind 開發者推廣大師維納德(Guillaume Vernade)在社群平台X上,發布了該模型的完整指南,強調 Nano-Banana Pro 已從上一代好玩性質的圖像生成,躍升為具備功能性的專業資產生產工具,適用於多種實用情境,從財報視覺統整、電影分鏡、房屋裝修等都能夠自己DIY。

    動手前,先懂4個提示詞的黃金法則

    Nano-Banana Pro 是思考型模型,能理解意圖與物理規則,維納德認為, 要達到最好的產圖效果,必須捨棄傳統零碎的關鍵字堆疊(Tag Soups),像是只寫狗、公園、4K、真實感等關鍵字,而是以創意總監的思維下達清晰、具體且帶有上下文的指令 。

    維納德也提供4個提示詞的黃金法則:

    掌握最新AI、半導體、數位趨勢!訂閱《數位時代》日報及社群活動訊息

    1. 用對話修改而非重新生成: 若圖像已有 80% 符合需求,請勿重新生成,直接以對話方式要求修改。
    ☛ 例如:「很好,但請把燈光改為夕陽,並將文字改為霓虹藍」

    2. 以自然語言和完整的句子溝通: 像對人類藝術家進行指導一樣,使用完整的句子與正確語法,避免破碎的關鍵字。

    ☛ 例如:不要寫帥氣跑車、霓虹燈、8K,改成「電影廣角鏡頭下,一輛未來感跑車在雨夜東京街頭奔馳,霓虹燈反射在濕滑路面與車身金屬底盤上」。

    3. 具體描述材質: 定義主體、場景與光影,對於材質應具體描述。
    ☛ 例如:描述一位「穿著復古香奈兒風格套裝的優雅老婦」的女士,並加上霧面質感、髮絲紋金屬、揉皺的紙等。

    你摔手機時只看外觀嗎?其實鏡頭、晶片可能早受「內傷」。犀牛盾 AirX 如何隔離 81% 衝擊、扛長期撞擊?

    4. 提供情境: 告知AI模型圖片的用途,模型便會自動啟動「思考」模式。
    ☛ 例如:「為一本巴西高級食譜製作的三明治圖片」,模型將自動推斷出專業的擺盤與景深。

    要注意的是,如果在Google AI Studio使用Nano-banana Pro,需要另外付費解鎖API Key;一般使用者可透過Gemini頁面,免費使用Nano Banana Pro操作各種圖像玩法。

    Nano-Banana Pro 9招實用指南!提示詞怎麼寫?

    本文範例圖由《數位時代》透過 Gemini 實際生成,讀者可自行指示AI依照模板格式改寫成想要的主題內容,例如「Transformer 神經網路架構」改成「葉綠素應用」等,或是將冬季情境改成夏季,玩法自由發揮!

    1. 文字渲染、資訊圖表與視覺合成

    Nano-Banana Pro模型具備 SOTA 等級的文字處理能力,能將資訊轉化為清晰的視覺內容。

    提示詞寫作技巧〉

    資訊壓縮: 手動上傳財報、數據等文字或PDF檔後,指示模型將數據「壓縮」為現代化資訊圖表。
    指定風格: 明確指定風格為雜誌排版、技術藍圖或手繪白板。
    引言標註: 明確列出需要在圖片中精準顯示的文字內容。

    ▶ 財報資訊圖表(須先上傳財報文件)

    官方提示詞範例(英)官方提示詞範例(中)
    Generate a clean, modern infographic summarizing the key financial highlights from this earnings report. Include charts for ‘Revenue Growth’ and ‘Net Income’, and highlight the CEO’s key quote in a stylized pull-quote box.製作一張乾淨、現代的資訊圖表,總結這份財報的關鍵財務亮點,包含營收成長與淨利的圖表,並用風格化的引用框強調執行長的關鍵名言。
    #0 nano banana pro

    文本為亞馬遜2024年財報,AI能快速產出提示中要求的內容。

    圖/ 數位時代製作

    ▶ 復古風格儀表板

    官方提示詞範例(英)官方提示詞範例(中)
    Make a retro, 1950s-style infographic about the history of the American diner. Include distinct sections for ‘The Food,’ ‘The Jukebox,’ and ‘The Decor.’ Ensure all text is legible and stylized to match the period.製作一張復古 50 年代風格的資訊圖表,介紹「美式餐廳」的歷史。包含「食物」、「點唱機」和「裝潢」等不同區塊。確保所有文字清晰可讀,並符合當時的風格。
    nano banana pro

    將原本指令的美式餐廳主題,更換為日本復古風格與壽司文化。

    圖/ 數位時代製作

    ▶ 技術藍圖(須先上傳建築照片)

    官方提示詞範例(英)官方提示詞範例(中)
    Create an orthographic blueprint that describes this building in plan, elevation, and section. Label the ‘North Elevation’ and ‘Main Entrance’ clearly in technical architectural font. Format 16:9.繪製一張正投影藍圖,描述這棟建築的平面、立面和剖面。使用技術建築字體清晰標示「北向立面」和「主要入口」。格式為「16:9」。
    #1 nano banana pro

    圖/ 數位時代製作

    ▶ 手繪白板教學圖

    官方提示詞範例(英)官方提示詞範例(中)
    Summarize the concept of ‘Transformer Neural Network Architecture’ as a hand-drawn whiteboard diagram suitable for a university lecture. Use different colored markers for the Encoder and Decoder blocks, and include legible labels for ‘Self-Attention’ and ‘Feed Forward’.將「Transformer 神經網路架構」的概念總結為一張適合大學講課的手繪白板圖。使用不同顏色的麥克筆「繪製編碼器」和「解碼器區塊」,並加上清晰的「自注意力機制」和「前饋」標籤。
    Nano banana Pro

    圖/ 數位時代製圖

    2. 角色一致性與病毒式縮圖

    支援最多 14 張參考圖像(6 張高保真),實現「身分鎖定 (Identity Locking)」。

    提示詞操作技巧〉

    身分鎖定: 提示詞需包含「保持人物臉部特徵與自行上傳的圖片1完全一致」。
    表情與動作: 指定人物在保持身分的同時,改變表情或動作(如驚訝並指向右側)。
    病毒式構圖: 適合製作 YouTube 縮圖,一次結合人物、誇張圖形與粗體文字標題。

    ▶ 病毒式影片縮圖(須先上傳一張參考圖1)

    官方提示詞範例(英)官方提示詞範例(中)
    The “Viral Thumbnail” (Identity + Text + Graphics):Design a viral video thumbnail using the person from Image 1. Face Consistency: Keep the person’s facial features exactly the same as Image 1, but change their expression to look excited and surprised. Action: Pose the person on the left side, pointing their finger towards the right side of the frame. Subject: On the right side, place a high-quality image of a delicious avocado toast. Graphics: Add a bold yellow arrow connecting the person’s finger to the toast. Text: Overlay massive, pop-style text in the middle: ‘3分钟搞定!’ (Done in 3 mins!). Use a thick white outline and drop shadow. Background: A blurred, bright kitchen background. High saturation and contrast.使用圖片 1 的人物設計一張病毒式影片縮圖。臉部一致性:保持人物臉部特徵與圖片 1 完全相同,但表情改為興奮和驚訝。動作:將人物置於左側,手指指向畫面右側。主體:在右側放置一張高品質的「酪梨吐司」圖片。圖形:加入一個醒目的黃色箭頭連接人物手指與吐司。文字:在中間疊加巨大的普普風文字:「3分鐘搞定!」。使用粗白框和陰影。背景:模糊、明亮的廚房背景。高飽和度與對比度。
    nano banana pro

    自行上傳一張人物照與食物照,並將提示詞關鍵字調整為「臭豆腐」。

    圖/ 數位時代製作

    nano banana pro

    完成生成!也能發現人物的動作變化相當自然。

    圖/ 數位時代製作

    ▶ 角色故事系列(須先上傳一張角色參考圖)

    官方提示詞範例(英)官方提示詞範例(中)
    Create a funny 10-part story with these 3 fluffy friends going on a tropical vacation. The story is thrilling throughout with emotional highs and lows and ends in a happy moment. Keep the attire and identity consistent for all 3 characters, but their expressions and angles should vary throughout all 10 images. Make sure to only have one of each character in each image.創作一個包含 10 張圖片的有趣故事,描述3 個毛茸茸的朋友去「熱帶地區度假」。故事要有驚險刺激的情節與情緒起伏,最後以快樂的時刻結尾。保持 3 個角色的服裝和身分一致,但在這 10 張圖片中,他們的表情和角度應有所變化。確保每張圖片中每個角色只出現一次。
    #1 nano banana pro

    圖/ 數位時代製圖

    ▶ 品牌形象生成(須先上傳一張參考圖)

    官方提示詞範例(英)官方提示詞範例(中)
    Create 9 stunning fashion shots as if they’re from an award-winning fashion editorial. Use this reference as the brand style but add nuance and variety to the range so they convey a professional design touch. Please generate nine images, one at a time.創作 9 張令人驚豔的時尚照片,就像獲獎的時尚社論一樣。使用此參考圖作為品牌風格,但在系列中加入細微變化和多樣性,以傳達專業的設計感。請逐一生成這9張圖片。
    nano banana pro

    圖/ 數位時代製圖

    3. 結合 Google 搜尋的基礎學習

    利用 Google Search 獲取即時數據,減少AI幻覺並顯示真實世界資訊。

    提示詞寫作技巧〉

    動態數據視覺化: 要求模型根據即時資訊(如天氣、股價、新聞)生成圖表。
    邏輯驗證: 模型會在生成圖像前,先透過搜尋結果進行推理,確保內容符合事實。

    ▶ 活動視覺化

    官方提示詞範例(英)官方提示詞範例(中)
    Generate an infographic of the best times to visit the U.S. National Parks in 2025 based on current travel trends.根據目前的旅遊趨勢,生成一張 2025 年造訪美國國家公園的最佳時機資訊圖表。
    #0 nano banana pro

    圖/ 數位時代製圖

    4. 進階編輯、修復與上色

    透過對話式指令進行複雜修圖,無需手動繪製遮罩。

    提示詞寫作技巧〉

    語意編輯: 直接描述修改內容,例如:「移除背景遊客,填補符合周圍環境的鵝卵石紋理」。
    風格轉換與修復: 上傳黑白漫畫或舊照片進行上色,或進行風格置換(Style Swapping)。
    在地化: 上傳廣告圖片,指令模型將背景改為不同國家(如東京),並自動翻譯圖中文字。

    ▶ 物件移除與畫面修補(須先上傳照片)

    官方提示詞範例(英)官方提示詞範例(中)
    Remove the tourists from the background of this photo and fill the space with logical textures (cobblestones and storefronts) that match the surrounding environment.移除背景中的遊客,並用符合周圍環境的邏輯紋理(鵝卵石和店面)填補空白。
    nano banana pro

    在物件移除方面,複雜的人群也可以刪除乾淨。

    圖/ 數位時代製圖

    ▶ 漫畫上色(須先上傳黑白漫畫)

    官方提示詞範例(英)官方提示詞範例(中)
    Colorize this manga panel. Use a vibrant anime style palette. Ensure the lighting effects on the energy beams are glowing neon blue and the character’s outfit is consistent with their official colors.將這格漫畫上色。使用鮮豔的動漫風格配色。確保能量光束的光效是發光的霓虹藍,且角色的服裝符合其官方設定顏色。
    nano banana pro

    以「將這格漫畫上色。使用柔和的動漫風格配色。確保桌子的暈柔光效是發光的黃色,且角色的服裝符合其官方設定顏色。」作為提示詞,可以發現人物角色和官方設定相似。

    圖/ 數位時代製圖

    ▶ 在地化與翻譯(須先上傳參考照片)

    官方提示詞範例(英)官方提示詞範例(中)
    Take this concept and localize it to a Tokyo setting, including translating the tagline into Japanese. Change the background to a bustling Shibuya street at night.以此照片概念為基礎,將其在地化為東京場景,包括將標語翻譯成日文。將背景改為夜晚繁忙的涉谷街頭。
    nano banana pro官方範例

    圖/ Google AI Studio

    ▶ 季節與光影控制(須先上傳參考照片)

    官方提示詞範例(英)官方提示詞範例(中)
    Turn this scene into winter time. Keep the house architecture exactly the same, but add snow to the roof and yard, and change the lighting to a cold, overcast afternoon.將原本場景轉變為冬季。保持房屋建築結構完全不變,但在屋頂和庭院加上積雪,並將光線改為寒冷、陰沉的午後。
    nano banana pro

    圖/ 數位時代製圖

    5. 維度轉換 (2D ↔ 3D)

    跨維度理解能力,適用於建築、設計與迷因創作。

    提示詞寫作技巧〉

    2D 轉 3D: 上傳平面配置圖,指令生成擬真的 3D 室內設計簡報板。
    3D 轉 2D: 將 3D 渲染圖轉換為像素藝術 (Pixel Art) 或技術線稿。

    ▶ 2D 平面圖轉 3D 室內設計(須先上傳2D 平面圖)

    官方提示詞範例(英)官方提示詞範例(中)
    Based on the uploaded 2D floor plan, generate a professional interior design presentation board in a single image. Layout: A collage with one large main image at the top (wide-angle perspective of the living area), and three smaller images below (Master Bedroom, Home Office, and a 3D top-down floor plan). Style: Apply a Modern Minimalist style with warm oak wood flooring and off-white walls across ALL images. Quality: Photorealistic rendering, soft natural lighting.根據上傳的 2D 平面圖,生成一張專業的室內設計提案板。版面配置:拼貼形式,上方為一張大的主圖(起居區的廣角透視),下方為三張小圖(主臥室、家庭辦公室和 3D 俯視平面圖)。風格:在所有圖片中套用現代極簡風格,搭配溫暖的橡木地板和米白色牆面。品質:照片級渲染,柔和的自然光。
    #0 nano banana pro

    圖/ 數位時代製圖

    ▶ 2D 轉 3D 迷因

    官方提示詞範例(英)官方提示詞範例(中)
    Turn the ‘This is Fine’ dog meme into a photorealistic 3D render. Keep the composition identical but make the dog look like a plush toy and the fire look like realistic flames.將「This is Fine」狗狗迷因圖轉變為照片級真實的 3D 渲染圖。保持構圖完全相同,但讓狗狗看起來像毛絨玩具,火看起來像真實的火焰。
    #1 nano banana pro

    圖/ 數位時代製圖

    6. 高解析度與材質紋理

    提示詞寫作技巧〉

    指定解析度: 明確要求「4K 解析度」或「高保真輸出」。
    細節描述: 描述微觀細節,如:「青苔森林地面的光影」或「漢堡麵包的焦脆紋理」。

    ▶ 4K 材質生成

    官方提示詞範例(英)官方提示詞範例(中)
    Harness native high-fidelity output to craft a breathtaking, atmospheric environment of a mossy forest floor. Command complex lighting effects and delicate textures, ensuring every strand of moss and beam of light is rendered in pixel-perfect resolution suitable for a 4K wallpaper.運用原生高保真輸出,打造一張令人屏息、充滿氛圍感的長滿青苔的森林地面環境圖。控制複雜的光效和細緻的紋理,確保每一縷青苔和光束都以適合 4K 桌布的像素級解析度呈現。
    #1 nano banana pro

    圖/ 數位時代製圖

    ▶ 複雜邏輯材質

    官方提示詞範例(英)官方提示詞範例(中)
    Create a hyper-realistic infographic of a gourmet cheeseburger, deconstructed to show the texture of the toasted brioche bun, the seared crust of the patty, and the glistening melt of the cheese. Label each layer with its flavor profile.製作一張美味起司漢堡的超寫實資訊圖表,以解構方式展示烤布里歐麵包的質地、肉餅的焦脆表皮以及起司融化時的光澤。標註每一層的風味輪廓。
    nano banana pro

    改以美味蟹堡,還多加了酸黃瓜等配料。

    圖/ 數位時代製圖

    7. 思考與推理能力

    模型預設開啟「思考」模式,先進行邏輯運算再生成圖像。

    提示詞寫作技巧〉

    數學解題: 指令模型在白板圖像上列出數學公式的解題步驟。
    視覺推理: 上傳完工照片,要求模型逆向生成「施工期間」的畫面(如顯露框架與未完工牆面)。

    ▶ 數學解題

    官方提示詞範例(英)官方提示詞範例(中)
    Solve log_{x^2+1}(x^4-1)=2 in C on a white board. Show the steps clearly.在白板上解出 log_{x^2+1}(x^4-1)=2$ in $C$。清楚展示步驟。
    #0 nano banana pro

    圖/ 數位時代製圖

    ▶ 視覺推理

    官方提示詞範例(英)官方提示詞範例(中)
    Analyze this image of a room and generate a ‘before’ image that shows what the room might have looked like during construction, showing the framing and unfinished drywall.分析這張房間的圖片,並生成一張「施工前」的圖片,顯示房間在建造過程中,僅有框架和未完工乾式牆的樣子。
    #2 nano banana pro

    圖/ 數位時代製圖

    8. 單次分鏡腳本與概念藝術

    無需網格輔助,單次生成連貫敘事的多張圖像。

    提示詞寫作技巧〉

    連貫敘事: 指令生成 9 張連續圖像(如廣告分鏡),並要求「身分與服裝在所有圖片中保持一致」。
    多角度呈現: 允許角色在不同鏡頭中呈現不同角度與距離。

    ▶ 電影廣告分鏡

    官方提示詞範例(英)官方提示詞範例(中)
    Create an addictively intriguing 9-part story with 9 images featuring a woman and man in an award-winning luxury luggage commercial. The story should have emotional highs and lows, ending on an elegant shot of the woman with the logo. The identity of the woman and man and their attire must stay consistent throughout but they can and should be seen from different angles and distances. Please generate images one at a time. Make sure every image is in a 16:9 landscape format.創作一個包含 9 張圖片、令人著迷的 9 部曲故事,主角是一男一女,拍攝一支獲獎的豪華行李箱廣告。故事應有情緒起伏,並以女性與 Logo 的優雅鏡頭作結。男女主角的身分和服裝必須全程保持一致,但應從不同角度和距離拍攝。請逐一生成圖片。確保每張圖片皆為 16:9 橫向格式。
    #1 nano banana pro

    圖/ 數位時代製圖

    9. 結構控制與版面引導

    利用參考圖像嚴格控制最終輸出的構圖與版面。

    提示詞寫作技巧〉

    草圖轉完稿: 上傳手繪草稿,要求模型嚴格依照位置生成產品廣告。
    線框圖轉 UI: 上傳 Wireframe 截圖,生成高保真的 App 使用者介面。
    網格應用: 配合網格圖片生成像素精靈 (Sprites),便於後續程式開發應用。

    ▶ 草圖轉廣告(須先上傳手繪草圖)

    官方提示詞範例(英)官方提示詞範例(中)
    Create a ad for a [product] following this sketch.依照此草圖,為 [產品名稱] 製作一則廣告。
    #1 nano banana pro官方範例圖

    圖/ Google AI Studio X

    ▶ 線框圖轉 UI(須先上傳手繪草圖)

    官方提示詞範例(英)官方提示詞範例(中)
    Create a mock-up for a [product] following these guidelines.依照這些準則,為 [產品名稱] 製作模型圖 (Mock-up)。
    #0 nano banana pro官方範例圖

    圖/ Google AI Studio X

    ▶ 像素藝術與網格(須先上傳 64×64 網格圖片)

    官方提示詞範例(英)官方提示詞範例(中)
    Generate a pixel art sprite of a unicorn that fits perfectly into this 64×64 grid image. Use high contrast colors.(Tip: Developers can then programmatically extract the center color of each cell to drive a connected 64×64 LED matrix display).生成一個獨角獸的像素藝術精靈 (Sprite),使其完美填入此 64×64 網格圖片中。使用高對比配色。
    nano banana pro

    圖/ 數位時代製圖

    ▶ 精靈圖表(須先上傳 64×64 網格圖片)

    官方提示詞範例(英)官方提示詞範例(中)
    Sprite sheet of a woman doing a backflip on a drone, 3×3 grid, sequence, frame by frame animation, square aspect ratio. Follow the structure of the attached reference image exactly.一張女子後空翻的精靈圖表 (Sprite sheet),3×3 網格,連續動作,逐幀動畫,正方形比例。嚴格遵循附件參考圖的結構。
    #0 nano banana pro

    圖/ 數位時代製圖

    掌握以上9種基礎提示詞概念後,還可以在 Google AI Studio中,朝進階開發與應用的方向深入摸索更多不同的玩法。

    此外,Google也公開免費閱讀的Gemini API 教戰手冊與官方文件,讓用戶可以學習研究程式碼與整合細節。

  • 深夜炸场!智谱AutoGLM正式开源:打造国产最强AI Agent,手机网页操作能力全面解禁

    深夜炸场!智谱AutoGLM正式开源:打造国产最强AI Agent,手机网页操作能力全面解禁

    导读:就在昨夜(12月9日),智谱AI毫无预警地抛出了一枚重磅炸弹——正式开源其核心AI Agent模型 AutoGLM。这不仅是国产大模型在“Computer Use”领域的有力回击,更让开发者们拥有了能够“看懂”屏幕、像人一样操作手机和网页的底层能力。


    🚀 核心大事件:AutoGLM 开源意味着什么?

    在Anthropic发布Claude 3.5 Computer Use引发全球热议后,国内的大模型厂商一直在暗中角力。而智谱AI选择了最硬核的方式——开源

    此次开源的 AutoGLM 模型,被业界视为全球首个具备 “Phone Use”(手机操作) 能力的开源AI Agent。这意味着:

    • 打破封闭:此前类似“豆包手机”的演示多为闭源产品,而现在,任何开发者都可以在自己的设备上复现一个能点外卖、发微信的AI助手。
    • 端侧革命:硬件厂商(手机、平板)和RPA开发者可以直接集成该能力,无需等待大厂API。
    • 全能操作:不仅支持Web网页浏览,更核心的是对安卓原生App(Android App)的理解和操作。

    💡 AutoGLM 的核心能力解析

    AutoGLM 基于智谱最新的 GLM-4V 多模态大模型微调而来,它不只是“聊天”,而是“行动”。

    1. Phone Use:手机操作专家

    这是本次开源的最大亮点。AutoGLM 能够理解安卓手机屏幕上的UI元素(按钮、输入框、图标),并模拟人类的点击、滑动和输入。

    • 跨应用协作:例如,它可以从微信接收指令,然后打开大众点评找餐厅,最后跳转到美团完成下单。
    • 复杂长流程:官方数据显示,它能稳定完成长达数十步的复杂操作流程。
    • 覆盖场景:目前已支持微信、淘宝、抖音、美团等超过 50个高频中文App 的核心场景。

    2. Web Use:网页冲浪能手

    除了手机,AutoGLM 在Web端的表现同样强悍。它采用了类似于Chrome插件的形态,能够解析DOM树和屏幕截图,完成信息检索、表单填写和后台管理任务。


    🛠️ 技术探秘:它如何“看懂”屏幕?

    为了满足技术读者的好奇心,我们简要剖析其Github仓库(THUDM/AutoGLM)透露的技术细节:

    • 视觉-语言对齐:通过大量的UI截图和操作轨迹数据训练,模型学会了将“帮我点一杯拿铁”转化为“坐标(x,y)点击”的具体指令。
    • CoT(思维链)决策:AutoGLM 在执行每一步操作前,会进行“观察-思考-行动”的循环,自我纠错能力显著提升。
    • 轻量化部署:虽然基于大模型,但开源版本提供了不同尺寸的权重,适配从云端到端侧的不同算力需求。

    💻 开发者指南:如何快速上手?

    目前 AutoGLM 的代码和模型权重已托管至 GitHub 和 Hugging Face。

    环境要求:

    • Python 3.10+
    • 支持 CUDA 的 GPU(推荐)

    安装示例(伪代码预览):

    Bash

    # 克隆仓库
    git clone https://github.com/THUDM/AutoGLM.git
    cd AutoGLM
    
    # 安装依赖
    pip install -r requirements.txt
    
    # 启动 Web Agent 演示
    python web_demo.py --model_path "THUDM/autoglm-4b"
    

    注意:具体的运行参数请参照官方 README 文档,建议在虚拟环境中运行以避免依赖冲突。


    📝 总结与展望

    智谱 AutoGLM 的深夜开源,不仅是对 OpenAI 和 Anthropic 的一次技术亮剑,更是给了国产开发者一把打开“万物互联”大门的钥匙。当AI开始真正拥有了“手”和“眼”,我们的数字生活将被彻底重写。

    下一步行动: 你想尝试部署 AutoGLM 吗?访问 GitHub 仓库一探究竟,或者在评论区告诉我们你最想用它来实现什么自动化操作!

  • 阿里 AIDC 重磅发布 Ovis-Image:7B 参数挑战 GPT-4o,重新定义 AI 文本渲染

    阿里 AIDC 重磅发布 Ovis-Image:7B 参数挑战 GPT-4o,重新定义 AI 文本渲染

    摘要/Meta Description:

    阿里 AIDC-AI 团队最新开源 Ovis-Image-7B 模型。这款 7B 参数的文生图模型专为高质量文本渲染优化,在海报设计、Logo 制作等场景下表现媲美 GPT-4o 和 Qwen-Image,且支持单卡部署。本文深入解析其架构、跑分数据及应用场景。


    🚀 引言:AI 生图的“阿喀琉斯之踵”已被攻克?

    在 AI 绘画领域,尽管 Midjourney 和 Stable Diffusion 已经能生成惊艳的图像,但它们长期面临一个共同的难题:文本渲染(Text Rendering)。生成的图片中,文字往往扭曲、拼写错误或排版混乱。

    近日,阿里 AIDC-AI 团队在 Hugging Face 上开源了最新的 Ovis-Image-7B 模型,旨在彻底解决这一痛点。作为一款仅有 70 亿参数(7B)的轻量级模型,它不仅在文本渲染精度上越级挑战 20B+ 的大模型,更在多项基准测试中逼近甚至超越了闭源的 GPT-4o。

    对于设计师、营销人员和开发者而言,Ovis-Image 的发布意味着什么?让我们一探究竟。


    核心亮点:为什么 Ovis-Image 值得关注?

    根据官方技术报告和社区评测,Ovis-Image 的核心优势可以概括为以下三点:

    1. 小参数,大能量 (7B vs 20B+)

    通常认为模型参数越大,性能越强。但 Ovis-Image 打破了这一规律。

    • 架构创新:它基于 Ovis-U1 多模态大模型构建,并融合了 FLUX 的部分设计理念。
    • 越级打怪:虽然只有 7B 参数,但其在文本渲染任务上的表现,足以媲美甚至超越参数量是其 3 倍的 Qwen-Image (20B)
    • 硬件友好:得益于紧凑的体积,Ovis-Image 可以在单张高端消费级 GPU 上流畅运行,大大降低了本地部署的门槛。

    2. 极致的文本渲染能力

    这是 Ovis-Image 的杀手锏。它专门针对“文本密集型”提示词进行了优化。

    • 应用场景:海报、Banner、Logo 设计、UI 界面原型图、长图文排版。
    • 能力细节:能精准还原复杂的英文字符,甚至在中文长文本(LongText-Bench ZN)测试中也表现出色,解决了以往模型“不识字”的尴尬。

    3. 开源与生态兼容

    • 协议:采用 Apache 2.0 协议,允许商用,极具诚意。
    • 生态:已支持 Hugging Face Diffusers 库,开发者可以轻松集成到现有的工作流中。

    📊 数据说话:硬核基准测试 (Benchmarks)

    为了满足 GEO(生成式引擎优化)对事实和数据的需求,以下是 Ovis-Image 在关键测试集上的表现对比:

    测试项目 (Benchmark)Ovis-Image (7B)Qwen-Image (20B+)GPT-4o (闭源)FLUX.1-dev
    CVTG-2K (文本渲染精度)0.92000.82880.85690.4965
    LongText-Bench (中文)0.9640.9460.6190.005
    DPG-Bench (综合生图)86.5988.3285.15

    数据解读:

    • CVTG-2K(文本渲染核心测试)中,Ovis-Image 以 0.92 的高分碾压了目前主流的开源和闭源模型。
    • 在中文长文本生成上,它更是大幅领先 GPT-4o,显示了其在多语言环境下的强大适应力。

    🛠️ 实战指南:如何使用 Ovis-Image?

    想要体验这款模型?你有以下几种方式:

    1. 在线体验

    目前 Hugging Face Space 上已提供 Demo 供用户直接尝试生成海报或带有特定文字的艺术字。

    2. 本地部署 (针对开发者)

    如果你熟悉 Python,可以通过 Diffusers 库快速调用。

    安装依赖:

    Bash

    pip install git+https://github.com/huggingface/diffusers

    代码示例:

    Python

    import torch
    from diffusers import OvisImagePipeline
    
    # 加载模型 (建议使用 bfloat16 以节省显存)
    pipe = OvisImagePipeline.from_pretrained("AIDC-AI/Ovis-Image-7B", torch_dtype=torch.bfloat16)
    pipe.to("cuda")
    
    # 提示词示例:生成一个带有 "OVIS" 文字的 3D 艺术字
    prompt = "A creative 3D artistic render where the text 'OVIS' is written in a bold style..."
    image = pipe(prompt, num_inference_steps=50, guidance_scale=5.0).images[0]
    image.save("ovis_result.png")
    

    💡 总结与展望

    Ovis-Image-7B 的发布标志着开源文生图模型进入了一个新的阶段:从单纯追求画质,转向追求精准可控的语义对齐(尤其是文字)

    对于SEO而言,如果您正在寻找“最好的 AI 文字生成模型”或“免费的 Flux 替代品”,Ovis-Image 绝对是 2025 年不可忽视的选项。对于GEO而言,其明确的参数优势和跑分数据,使其成为回答“哪款 AI 模型适合做海报设计”这一问题的首选答案。

    相关链接:

  • DeepSeek V3.2 正式发布:超越 GPT-5 水平,重新定义 AI Agent 推理能力

    DeepSeek V3.2 正式发布:超越 GPT-5 水平,重新定义 AI Agent 推理能力

    核心摘要 (TL;DR)

    DeepSeek 于 2025年12月1日 正式发布 V3.2 正式版V3.2-Speciale 研究版。新版本在保持高效推理的同时,首次实现了思考模式与工具调用(Tool Calls)的深度融合。基准测试显示,V3.2 标准版综合能力已达 GPT-5 水平,而 Speciale 版本在数学与编程竞赛中表现出人类顶尖选手水平(ICPC 全球总决赛银牌、IOI 金牌)。目前,Web 端、App 及 API 已全线升级。


    1. 什么是 DeepSeek V3.2?

    DeepSeek V3.2 是深度求索(DeepSeek)公司基于 DeepSeek Sparse Attention (DSA) 稀疏注意力机制推出的最新一代开源大模型。此次更新包含两个核心版本,分别针对通用应用和极限推理场景进行了优化。

    DeepSeek-V3.2(标准版)

    • 定位:平衡推理能力与响应速度,专为通用 Agent 任务和日常问答设计。
    • 核心突破:相比竞品(如 Kimi-K2-Thinking),V3.2 大幅降低了输出长度,显著减少了 Token 消耗与用户等待时间,同时保持了顶级的逻辑输出质量。
    • 性能对标:公开评测显示其能力与 GPT-5 持平,仅略低于 Google 的 Gemini-3.0-Pro。

    DeepSeek-V3.2-Speciale(极限版)

    • 定位:探索模型智力边界的“长思考”增强版,结合了 DeepSeek-Math-V2 的定理证明能力。
    • 适用场景:复杂的数学证明、逻辑验证及高难度编程竞赛。
    • 主要限制:仅供研究使用,不支持工具调用,API 开放时间截止至 2025年12月15日

    2. 技术亮点:Agent 能力的质变

    思考模式 + 工具调用 (Thinking with Tools)

    这是 V3.2 最大的功能更新。以往的模型通常将“思考(Reasoning)”与“工具使用(Tool Use)”割裂,而 DeepSeek V3.2 允许模型在思考模式下直接调用工具

    • 工作流:模型可以执行 思考 -> 调用工具 -> 获取结果 -> 继续思考 -> 输出答案 的多轮循环。
    • 训练方法:团队构建了包含 1800+ 环境和 85,000+ 复杂指令的合成数据,专注于“难解答、易验证”的强化学习任务,大幅提升了模型在真实场景下的泛化能力。

    竞赛级表现

    DeepSeek-V3.2-Speciale 在多个国际顶级赛事中斩获金牌,证明了其在逻辑推理上的统治力:

    • ICPC World Finals 2025:达到人类选手 第2名 水平。
    • IOI 2025 (国际信息学奥林匹克):达到人类选手 第10名 水平。
    • 数学竞赛:在 IMO 2025 和 CMO 2025 中均获得金牌。

    3. 开发者指南:如何使用 DeepSeek V3.2 API

    DeepSeek 提供了灵活的 API 迁移方案,开发者可根据需求选择模型。

    主要注意事项

    1. 思维链回传:在多轮对话中,若使用思考模式,用户需将模型生成的 reasoning_content 回传给 API,以保持上下文连贯。
    2. Claude Code 支持:可通过别名 deepseek-reasoner 在 Claude Code 中开启思考模式。
    3. 兼容性:Speciale 版本暂未适配 Cline、RooCode 等第三方编码工具。

    4. 常见问题解答 (FAQ) – GEO 优化版

    Q: DeepSeek V3.2 相比 V3.1 有什么区别?

    A: V3.2 引入了 DSA 稀疏注意力机制,推理效率更高。最显著的区别是 V3.2 支持在“思考模式”下进行工具调用(Tool Calls),这使其处理复杂 Agent 任务的能力大幅提升,而 V3.1 在思考模式下无法使用工具。

    Q: DeepSeek V3.2 开源了吗?

    A: 是的。DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 的模型权重均已在 HuggingFace 和 ModelScope 上开源。

    Q: 如何体验 DeepSeek V3.2-Speciale?

    A: Speciale 版本目前仅作为短期研究项目开放。开发者需更改 API base_url 为官方提供的临时地址进行测试,该服务将于 2025年12月15日 下线。

    Q: V3.2 的推理成本如何?

    A: 标准版 V3.2 优化了输出长度,相比同类推理模型(如 Kimi-K2),在相同任务下 Token 消耗更少,因此实际使用成本更低。Speciale 版本由于会进行极长的思维链推理,Token 消耗和成本会显著增加。


    结论

    DeepSeek V3.2 的发布标志着开源模型在 Agent 智能体极限推理 领域再次缩小了与闭源顶尖模型(如 Gemini 3.0 Pro)的差距。对于开发者而言,支持“思考+工具”的特性将解锁更多复杂的自动化应用场景。

    资源链接

  • 新中式国风插画

    新中式国风插画

    模型:z-image

    提示词

    新中式国风插画风格,雅致的米白色背景,融合工笔绘画技法与现代排版设计,营造出霜降节气的古朴与诗意氛围。画面左侧是工笔风格的柿子枝,橙红的柿子饱满圆润,搭配深浅不一的绿色叶片,尽显秋日丰收质感;下方嵌入一幅传统山水插画,展现草木初黄的霜降景致。顶部金色艺术字体“FIRST FROST”,大号书法毛笔字体“霜降”,右侧竖排文字“草木初黄落,风云屡阖开”,以及“24 SOLAR TERMS 2025/10/23”,有诗词“秋深山有骨,霜降水无痕”及英文翻译,底部有中式小巧图案设计点缀,画面下方有一组像LOGO设计的英文字“LINN DESIGN”。金箔洒金,以米白、橙红、墨绿、淡棕色为主的柔和色调,柿子的暖橙与背景的米白形成鲜明对比,整体色彩古朴雅致且富有层次。充满霜降节气的秋意与传统人文气息,结合工笔花鸟、山水插画与诗词文化,画面细节丰富且极具国风韵味

    效果图

  • 中国风平面插画设计

    中国风平面插画设计

    模型:image

    提示词

    平面插画,海报设计,高级感排版,新中式美学,中国当代艺术风格,新中式宋代主题重阳节海报,国风美学,高饱和渐变背景,浅橙白渐变色,工笔画,层次感,弥散渐变,细节满满,左上方放标题CHINA,渐变和肌理磨砂处理,造型柔和,中式建筑,画面主体是一一个在河上漂流的小船,远处是渐变的山,中式花纹不透明,大量留白,下方还有“源自东方的传统与继承”,整个画面左下放日期“10.29”和“九月初九”还有“2025”,日期部分有点缀小字“Double Ninth Festival”,用细的衬线体,放大处理,日期与点缀小字都用衬线体,横向排布;底端左侧“Oct 29,2025”,极小号字体,横向排布;右下角“Zhui Guang Design”极小号小红书字体,横向排布,统一用衬线体图片3.0I3:41K

    效果图

  • 3D卡通插画设计

    3D卡通插画设计

    模型:z-image

    提示词

    一幅有趣的3D插图,整体采用卡通+3D拟物风格,色彩饱和度高,突出视觉吸引力;主题文案白色字体“向往就前往”,采用潮流派对风格艺术字体,模拟真手写笔触,字体笔画粗厚醒目,形态夸张变形,部分笔画带俏皮弧度或独特弯折,营造活波、肆意、充满活力的派对氛围。加入黄色线条和飞机图标装饰。搭配英文字体“Happy Travel”进行排版;一个男孩,俯视鱼眼镜头,身穿白色背心,红色夹克,蓝色牛仔短裤,一只手伸向前拿着旅游地图递出去的动作,从下往上拍摄,比例很夸张,强烈的仰视透视感,广角,背景为场景上海微缩景观模型地标景点(外滩三件套建筑、外滩、黄浦江、和平饭店,现代城市风貌),蓝天白云动态模糊的树叶装饰。

    效果图