Google Nano Banana 2 vs ByteDance Seedream 5.0 Lite: 哪个 AI 图像生成器更好? | Jose Antonio Lanz
作者:Jose Antonio Lanz | 日期:2026年3月3日
对 Google Nano Banana 2 和 ByteDance Seedream 5.0 的实际对比显示,最新的图像模型在价格、速度和创意控制方面有何不同。
TL;DR
-
• 两种模型在图像生成前引入多步推理,能够比早期的扩散系统更可靠地处理复杂提示、参考图像和扩展的编辑工作流程。 -
• Seedream 在价格上低于 Google,并允许本地执行和真实图像编辑,而 Nano Banana 则紧密嵌入在 Google 的消费和企业生态系统中。 -
• 测试显示,Seedream 在多轮编辑中更好地保留了角色身份和空间一致性,而 Nano Banana 则提供了更快的输出和更优越的图像内文字渲染。
目前市面上最强大的两种 AI 图像模型在本周内相隔数日发布,承诺将改变用户创作内容的方式。
Nano Banana 2——Google 内部对 Gemini 3.1 Flash Image 的命名——于 2 月 26 日发布,并几乎立即主导了 AI 领域的讨论。它是 Nano Banana Pro 的继任者,后者在 2025 年 11 月发布后成为 AI 图像编辑的黄金标准。字节跳动最新推出的图像生成系列作品 Seedream 5 Lite,则早几天就交付了产品。
前者在 Google 的营销机器中备受瞩目,而后者几乎没有任何新闻稿就悄然问世。尽管覆盖差距巨大,但能力差异却相对较小。
这到底是怎么回事?
这两个模型都基于同一个核心架构理念,即赋予图像生成器在绘制之前进行思考的能力。
这意味着在生成开始之前就能实现实时网络搜索整合,以及通过多步骤的推理链来解释复杂或模糊的提示,并且能够处理跨长时间编辑工作流程的参考图像。
这和一年前的生成模型相比是一个真正的转变,当时 Stable Diffusion 被广泛认为是革命性的。
它们都能输出最高 4K 分辨率。两者都支持多图像参考输入,以保持一致性工作流程。两者都能在单个会话中保持角色和对象之间的视觉连贯性。
两者都能在图像中生成带样式的可读文本,尽管效果并不相同。而且它们都进入了一个已经包含 OpenAI 的 GPT Image 1.5、Black Forest Labs 的 Flux.2 以及众多在价格和灵活性上激烈竞争的中国模型的市场。
但哪个选项对最终用户来说更好?我们测试了这两个模型来帮助找到答案。
技术,价格比较
价格差距是首先要理解的第一点。
Google 通过 Gemini API 以每百万输出图像 token 60 美元的价格定价 Nano。从实际角度来看,这分解为 512px 图像约 0.045 美元,1K 分辨率约 0.067 美元,2K 约 0.101 美元,4K 约 0.151 美元。
Seedream 每张图像收取固定费用 0.035 美元,与输出分辨率无关,因此任何高于 512px 的尺寸,Seedream 都是更便宜的选择。
在 4K 分辨率下,Nano 每张图片的成本超过四倍。对于大批量生产流程来说,这个成本会迅速累积。
可用性遵循完全不同的分发路径。Nano 在 Google 的完整消费者和开发者生态系统中运行,包括 Gemini 应用、Google 搜索的 AI 模式、Google Lens、AI Studio、Vertex AI 以及用于视频创作的 Google Flow。它嵌入在数十亿人日常使用的基础设施中。
Seedream 通过字节跳动旗下的剪映和剪影创意应用触达用户,通过第三方 API 聚合平台,以及通过字节跳动专门的形象生成界面 Dreamina。一个关键的区别是:Seedream 可以在本地运行。而谷歌不允许这样做。
平台体验是另一个需要考虑的差异。Gemini 首先是一个聊天机器人,其次是一个图像生成器。它生成图像效果很好,而且速度很快;谷歌的速度宣称在实践中得到了验证。
但你正在一个并非为迭代式视觉工作流程设计的对话界面中工作。
Dreamina 是专门为图像创作而构建的。它拥有针对参考管理、多步骤编辑和构图控制的专用工具。
此外,Dreamina 的生成队列通过 Gemini 界面所需时间明显长于 Nano。对于快速测试或单张图片,Gemini 能更快完成。对于持续的多轮编辑会话,Dreamina 的结构更为连贯。
在内容审核方面,Gemini 大多数情况下拒绝与真人合作——向其提出肖像编辑、涉及公众人物的照片处理或任何暗示可识别主体的内容,它都会拒绝。
Seedream 的规则更为宽松。字节跳动允许编辑真实图片和以可识别主体合作,这是谷歌不会参与的方式,这也解释了 Seedream 在内容创作者中拥有大量社区支持的原因。
在 API 方面,这两个模型都支持可配置的推理深度。Nano 允许开发者设置从最小到高或动态的思考级别,使模型能够在提交渲染之前对复杂提示进行推理。
Seedream 在其架构中实现了思维链监督,从而提高了多约束和空间复杂生成任务的提示保真度。
这两个模型都没有让推理过程对开发者完全透明,但它们在没有推理的情况下,对硬提示的表现都比前代更好。
角色一致性:迷你活动测试
这项测试旨在检验模型是否能在真实图像经过多次编辑迭代后保持可识别的身份。原始主题是一对在购物中心被拍摄的真实情侣。
目标是更换照片中的服装和其他元素,进行五次迭代,同时保持面部、身材和视觉身份在整个过程中可识别。
Gemini 聊天机器人直接拒绝与真实照片互动——这与其内容政策一致。测试 Nano Banana 2 需要直接通过 API 进行。
Nano:
Nano 的结果虽然视觉上很精致,但在后期迭代中显示出明显的身份漂移。
场景几何保持不变——LED 隧道环境、铺砖人行道视角以及背景标志位置都保持连贯。
但主题本身实际上被重新塑造。经过迭代结束时,女人不再是原来的样子。男人在迭代中几乎完全被替换:不同的年龄范围,不同的体型,不同的面部结构,不同的头发。
这个模型生成了一些美丽的东西,但并不是实际在场的人。如果用于编辑原始图像的参考素材没有可能让模型混淆的面部,这个问题可以在一定程度上得到解决。
Seedream:
Seedream 在身份保留方面在同等工作流程中表现明显更优。女人的面部结构、笑容几何形状和头部倾斜角度在多轮处理中始终与源图像保持一致。
这个男人保留了更多他原本的体型和体态。两个主体之间的姿势连续性也得到了更好的保留——手臂位置、距离和站姿对齐保持一致,这对于需要感觉像同一场景而不是新场景的任何事物都很重要。
不过,一些小瑕疵也存在,比如轻微的皮肤平滑处理、轻微的腰线重塑,以及整体质量在主体上的下降。
但这对夫妇仍然明显是这对夫妇。对于需要相同人员在多个创意产出中出现的活动流程来说,这个差异并不微小。
扩展绘画和画布扩展
扩展绘画测试要求两个模型将一张现代简约客厅图像扩展到 16:9 比例,自然地向左右两侧扩展场景,同时保持光照一致性和空间逻辑。
提示指定了白色墙壁、米色沙发、木质咖啡桌和室内植物——这是一个简单的简报,具有明确的结构参数。
Nano:
Nano Banana 2 生成的结果干净、无缝,在原始裁剪边界处没有可见的拼接痕迹或色调带状。墙面颜色、日光平衡和地板材质在整个扩展区域都保持一致。
从暗示的窗户光源发出的光线在扩展的画框中继续得相当可信。技术上,这种融合几乎完美无瑕。
但该模型引入了一些不属于场景的元素,比如右侧的篮子和背景中的建筑。不过,与之前的模型相比,它非常令人印象深刻。
Seedream:
Seedream 在原始输出中更为基础,这使得编辑更加容易。
扩展的左侧增加了一个第二个大型盆栽和完整的窗帘流动,相对于暗示的窗户来源,在空间上感觉是合理的。
右侧延伸至一个次级墙面,摆放着艺术作品和一个低矮的木质控制台,整个空间保持了极简的材料语言——浅色木材、柔和的中性色,没有任何与原始美学规则相悖的元素。照明在整个延伸框架范围内保持方向性一致。
天花板平面、吊灯位置和地板人字拼花都保持了逻辑上的协调。房间感觉像是一个可信的更宽的框架,而不是一个重新组合的概念。我们没有发现任何明显的瑕疵或错误。
在空间保真度和建筑真实性重要的生产环境中,Seedream 5 Lite 是更可靠的工具。如果现实主义比保真度更重要,Nano Banana 2 可能是更好的选择。
非写实图像生成:YouTube 缩略图测试
这项测试从编辑和扩展转向了纯粹的生成领域,要求非常高特异性:一个 YouTube 缩略图,上面写着"AI IMAGE WAR",副标题要同时命名两个模型,采用分屏布局,左侧有大型粗体标题文字,对比强烈的色彩,以及 16:9 的构图。
缩略图生成需要精准的字体排版、深思熟虑的构图层次和即时的视觉冲击力——所有这些要素必须同时具备。
Nano:
Nano 完美理解缩略图语法。
它生成了一幅构图,左侧是超大高对比度字体,右侧是戏剧性的分屏对决,暖橙色和电蓝色之间饱和的霓虹色彩冲突,以及中央的闪电分界线强化了对决动态。
标题层级清晰——“AI 图像之战”在视觉上占据主导,通过描边轮廓和发光效果,在小型手机屏幕上也能保持清晰。
文本渲染准确,没有拼写扭曲,没有乱码,并且全篇字间距一致。面部细节极其精细,情感强烈。
视觉冲击力很强。看起来就像一个设计用来吸引点击的缩略图。
Seedream:
Seedream 采取了不同的方法。它没有生成逼真的戏剧性面孔,而是为每个模型创造了风格化的吉祥物——一个香蕉角色和一个发光的神经球——使比较更具图形和图标的风格。
布局更简洁、结构更清晰,标题突出,副标题易于阅读,每个模型名称都框起来方便快速扫描。
字体设计很强:线条粗细干净,在任何尺寸下都易于阅读,没有明显的瑕疵。Nano Banana 侧重于视觉冲击和情感强度,而 Seedream 则产出了一些不那么爆炸性的效果,更具区分度,并且可以作为一个反复出现的视觉标识进行扩展。
这可能是一种风格选择,但在我们的主观看法中,对于侵略性病毒式 CTR 优化,Nano Banana 2 的影视强度更胜一筹。
真实图像生成:多约束准确率
最终测试测量了每个模型在遵循详细的多元素提示时,是否在不违反或误解任何约束的情况下保持精确。
简述:一位 32 岁的女性建筑师的影像,在日落时分的屋顶上,身穿米色风衣,戴着圆形眼镜,左手拿着卷起的蓝图,背景中的城市天际线略微失焦,金色时刻的光线配合柔和的边缘光,浅景深模拟 50mm 镜头,垂直 4:5 的宽高比,逼真的皮肤纹理和微妙的胶片颗粒感。列表中的每个元素都是一个可能独立失效的约束条件。
Nano:
Nano 生成了一位白人女性,她正看向镜头——这一叙事选择并未在提示中指定,这暗示了对创意解释的偏好超过了对约束的严格遵循。
米色风衣、圆形眼镜和左手中的卷轴蓝图都渲染得非常准确。屋顶和模糊的城市天际线也呈现出来,空间感很强。
黄金时刻的光线存在,但与提示词要求的暖色调相比,它略微偏冷。轮廓光处理得较为低调,而非清晰分明。景深处理得很好,但空间压缩感更像是 35mm 到 40mm 的模拟,而非真正的 50mm。
胶片颗粒几乎可以忽略不计。皮肤纹理逼真,但带有美颜扩散系统常见的轻微平滑倾向。整体执行到位,模型在一些地方做出了自己的选择,进行了一些不易察觉的替换。
Seedream:
Seedream 生成了一个面向镜头的亚洲女性——对于一个没有指定注视方向的提示来说,这是一个中性的默认设置。
所有指定元素都存在且正确实现。黄金时刻的暖色调更加真实(甚至可能被夸张),有明确的轮廓光将主体与背景分离,符合提示词的意图。
景深效果和焦点压缩更接近真实的 50mm 模拟,主体与背景的比例自然。皮肤纹理准确,微观对比度保留更好,且比 Nano Banana 的输出更少平滑伪影。
话说回来,其中一个蓝图生成不正确,看起来更像是一个副产品,而不是生成中的正确元素。
在构图上,Seedream 的结果更加居中且技术上更精确,解释性添加更少,但 Nano Banana 生成的图像更逼真。
一个你可能想要考虑的一致性错误
在涉及大量连续生成的长时间 API 会话中,两个模型都显示出在流程开始时不存在退化现象。
Seedream 开始生成模糊不清、难以辨认的人物面部,而早期版本中这些人物面部原本被处理得非常清晰。Nano 则完全失去了主题身份,生成的角色与会话开始时确立的主题没有任何一致的关系。
随着会话时间的增加,两个模型似乎都在减少推理深度——就好像它们在已经生成的内容越多时,为每个生成所花费的努力就越少。
这究竟是故意的计算限制,还是在高 API 流量下的负载均衡行为,抑或是架构上的某些问题,从外部来看并不清楚。
但它的一致性足以让任何运行长生成链的生产流程进行规划。两种模型在会话开始时表现最佳。随着持续的高负载,两种模型都会退化。
理想情况下,与其进行连续的迭代,不如在单次迭代中要求模型进行合理数量的修改,以避免质量下降。
但这是一种艺术。一轮中修改太多会导致提示词遵循性差;而修改太少则会导致需要连续迭代,从而降低主题一致性。
结论:谁获胜?
Nano 在文本渲染、原始生成速度、生态集成和生成能耗方面获胜。文本准确性是其最明确的优势——没有乱码,没有字体不一致,没有重复文本。
它生成速度快。它能在数十亿人已使用的众多产品中工作。而且它的世界知识整合功能——模型在决定渲染内容前会搜索网络——产生的输出感觉是基于编辑基础而非泛美学的。
如果你的工作流程在 Google 的生态系统中,如果图像中的文本准确性是不可协商的,或者如果你需要快速迭代而不与真人合作,Nano 在这些特定条件下是更强大的工具。
Seedream 在成本、平台设计、内容灵活性、空间任务中的结构纪律性以及跨多步编辑的人物保留方面获胜。
每张图像 0.035 美元的固定价格使其成为任何批量生成图像的工作流程的实用默认选项。Dreamina 的专用界面比 Gemini 的聊天机器人外壳更适合持续的创作会话。
宽松的内容政策让谷歌不会参与的用例得以开放。而对于需要在不同版本的真人对象中保持一致身份的工作流程——即活动工作的核心需求——Seedream 在每项测试中都表现更佳。
https://decrypt.co/359700/image-ai-leap-google-bytedances-latest-models
如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^
相关好文推荐:
通过元学习Agent记忆设计学习如何持续学习 | Yiming Xiong
超越 RAG 以实现智能体记忆:通过解耦和聚合进行检索 | ICML
你的工作不会消失,它只是不断在你身边逐渐萎缩 | Jan Tegze
一个使用 OpenRouter 的 1 万亿令牌实证研究 | OpenRouter AI
一个月内把编码主力交给 Agent 的真实体验 | karpathy
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(三)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(二)| Sebastian Raschka
从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(一)| Sebastian Raschka
递归语言模型(Recursive Language Models) | Alex Zhang

0条留言