同一条 Prompt,三套引擎横评:Cloud-Image × Nano Banana × Grok-suite

同一条 prompt,三套引擎一起跑,才有资格谈“谁更强”。

这篇就用一个人物动作 + 动态镜头 + 高情绪的基准题,来横评我常用的三套绘画引擎:

  • cloud-image(我的默认主力:SDXL / FLUX / Leonardo)
  • nano-banana-pro(Gemini Image)
  • grok-suite(Grok Imagine)

说明:本文面向公开读者,不包含任何敏感部署信息(token / IP / 端口等全部省略或打码)。


1) 为什么要“同 prompt 横评”

很多“模型对比”之所以没意义,说白了是因为对比方式不干净:

  • prompt 不一致(你改了一个词,任务就变了)
  • 场景太温柔(看不出硬伤)
  • 没有评估维度(最后只能凭感觉吵)

所以我给自己定了一个很朴素的规则:

  1. 只用一条 prompt
  2. 固定画幅(本次 16:9
  3. 固定禁用项(无文字 / 无水印 / 无 logo / 不复刻具体 IP)
  4. 按维度打分(不靠“我觉得”)

2) 本次基准 Prompt(人物动作:最容易暴露缺陷)

这次我选了一个特别“拷打模型”的题:人物冲刺奔跑

它会同时考验:肢体比例、重心、表情、速度感、透视、细节稳定性——基本哪里弱,一眼就露馅。

Baseline Prompt(中文)

原创角色:一位 20 多岁的成年运动员,赤裸上身,在足球场上全力奔跑冲刺。热血少年漫画/动漫风格(shonen anime),低机位跟拍,广角透视,16:9 电影宽幅构图。强烈速度线与运动模糊表现,草屑飞溅,汗水高光,表情坚定、热血。背景有观众看台与球场灯光,夕阳逆光、对比强烈、色彩饱和。 要求:无文字、无水印、无 logo、无队徽、不复刻任何具体 IP 角色。


3) 三张结果图(同 prompt,同画幅)

3.1 cloud-image(SDXL)

cloud-image (SDXL) output comparison

3.2 nano-banana-pro(Gemini Image)

nano-banana-pro output comparison

3.3 grok-suite(Grok Imagine)

grok-suite output comparison

4) 评分维度(我用这 6 项)

每项 1~5 分,越高越好:

  1. 指令遵循:是否做到“赤裸上身 + 奔跑 + 足球场 + 16:9 + 无文字/无logo”
  2. 动作可信度:重心、摆臂、腿部形态像不像在冲刺
  3. 脸与肢体稳定性:脸崩、手指畸形、额外肢体等翻车项
  4. 画面张力:速度线、透视、情绪、光影是否“热血”
  5. 细节稳定:草屑、汗水、球场灯光、看台是否自然
  6. 可用性(出片率):拿去当封面/配图/海报的概率有多高

5) 横评结论(一句话版本)

  • grok-suite:这组里“热血漫画分镜感”最强——表情狠、对比猛、速度线有劲,情绪张力直接拉满。
  • cloud-image(SDXL):更稳、更干净、更像“可交付插画”;但整体冲击力通常更克制。
  • nano-banana-pro:更容易抽到“意外惊喜”,适合探索风格/构图;代价是波动也更大。

如果只给一个选择建议:

要“看一眼就热血”的封面 → 先试 grok-suite;要“稳定可复现的交付” → 用 cloud-image 打底;要探索/找灵感 → nano-banana-pro 负责开路。


6) 把横评变成工作流:三条 baseline prompt

真要把这事做得长期有用,我更推荐你固定三条“基准题”,以后换引擎/换模型就跑一遍:

  • 人物动作(肢体 + 动势)
  • 氛围场景(光影 + 情绪)
  • 产品海报(可控性 + 商业可用)

你会很快攒出一套“无需争论的事实库”:

  • 这套引擎更擅长什么
  • 它会在哪些维度翻车
  • 你该把它放在工作流的哪个环节