Text to Image 提示词工作流指南

真正好用的 text to image prompts，更像一份制作 brief，而不是一串形容词。强提示词应该明确主体、构图、哪些元素必须稳定，以及第一轮生成后你要检查什么。

TL;DR：把提示词写成可复用的制作 brief

先写主体、构图、风格、输出规则和投放场景，再补氛围词。
给产品图、头像、海报和 UI 概念图保留同一套骨架，只替换变量字段。
第一张结果的作用是诊断，不是审美投票。
只有当身份、包装、人脸、色彩系统或 UI 层级必须稳定时，才加参考图。
把真正解决任务的版本保存下来，下一次直接在 Vogue AI 里复制它。

这类 text to image prompts 到底要解决什么

搜索这个词的人通常不是想看灵感合集，而是想拿到一条可以复制、改写并生成可控初稿的提示词。所以内容重点应该是结构，而不是堆案例。

好结果：第一轮就能得到可继续打磨的产品图、人像、活动视觉或界面概念图。
坏结果：读起来很“会写”，但模型可以随意改错重点。
关键判断：看提示词能不能保住 brief，而不是看句子是否华丽。

Text to image prompt 公式

组成部分	应该写什么	为什么重要
主体	具体产品、人物、物体、场景或屏幕内容。	主体不清晰，后面的风格描述都会飘。
上下文	图片用于商品页、发布海报、广告、画廊卡片还是 UI 展示。	渠道不同，构图和可用标准也不同。
构图	机位、裁切、距离、留白和版式锚点。	构图是阻止第一轮失控的最快手段。
风格	材质、真实度、情绪、色板和品牌调性。	风格负责收窄视觉语言，但不能替代主体控制。
光线	柔光箱、轮廓光、自然光、背光或硬闪。	光线通常决定画面是否从“普通”变成可用初稿。
输出规则	比例、无文字、透明背景、安全区、无水印。	输出规则让结果对齐真实生产任务。
参考图交接	参考图控制什么，什么可以让模型自由发挥。	参考图只有在职责明确时才真正有用。
检查点	第一轮生成后先检查什么。	有检查点，才不会过早整条重写。

场景矩阵

目标	提示词重点	必须固定	第一步先改什么
产品发布视觉	Hero 主体、材质细节、发布感灯光和可放标题的留白。	产品轮廓、包装特征和背景层级。	先改裁切和留白，再考虑加更多风格词。
人像活动图	表情、服装、肤质、镜头距离和色板。	脸部身份、发型和眼睛清晰度。	先改参考图交接，再改整体 mood。
社媒海报	焦点、反差、渠道比例和后续加字空间。	主体层级和文字安全区。	先修背景杂乱和标题空间。
UI 概念图	设备 framing、界面层级、桌面环境和反光控制。	屏幕结构和用户能识别的产品区域。	先修透视和反光，再决定是否换模型。

可直接复制的 text to image prompt 示例

先复制其中一条，只替换方括号变量，第一轮尽量不要改其它结构。为了方便直接粘贴到 Vogue AI，提示词块在所有语言版本中都保留英文。

Vogue AI 提示词库中的活动海报案例 — 把提示词库案例当作视觉目标，同时保持结构稳定，方便一次只改一个控制点。

Product launch hero: Premium launch visual for [product], centered hero composition, crisp material detail, controlled reflections, clean [background color] stage, cinematic rim light, premium ecommerce realism, 4:5 aspect ratio, no text, no watermark.
Portrait campaign image: Editorial portrait of [subject], confident expression, natural skin texture, soft background separation, wardrobe in [color palette], subtle cinematic contrast, sharp eyes, 3:4 crop, no extra hands, no text.
Social poster: High-contrast launch poster for [topic], main subject [subject], dramatic lighting, bold negative space for future headline, modern campaign styling, 9:16 aspect ratio, keep text area empty.
UI concept visual: Product marketing image for [app or website], realistic device framing, visible interface hierarchy, clean desk surface, premium SaaS lighting, restrained reflections, 16:9 aspect ratio, no floating nonsense elements.

两组真实案例图和对应 prompt

这篇如果只讲公式，信息增量还是不够。下面两组案例直接来自 Vogue AI prompt library：你能看到真实图片、真实 prompt 结构，以及真正值得拿走复用的控制方式。

案例 1：产品图结构，重点是材质与背景控制

Vogue AI 提示词库中的产品摄影案例 — 这类案例适合解决“产品质感不够、主体和背景分离不够、画面不够商业化”这三类问题。

这里真正值得复用的，不是食物题材本身，而是 hero framing、材质描述、干净棚拍背景，以及明确去掉文字噪音的输出规则。

Prompt: A premium street-food product photograph of crispy fried momos arranged in a black serving tray, centered against a warm White seamless studio background. The momos have a deep golden crispy texture with realistic oil shine and crunchy folds. Fresh green herbs and a vivid red dipping sauce add contrast. Soft studio lighting, premium food-commercial realism, clean composition, 4:5 framing, no text, no watermark.

案例 2：参考图驱动的人像结构，重点是身份保护

Vogue AI 提示词库中的参考图人像案例 — 当脸部身份必须保住，但服装、灯光和海报风格需要大改时，这种结构非常有用。

这组案例适合所有“人必须还是这个人，但画面气质要换”的任务。核心不是多写形容词，而是先把 reference handoff 说清楚：身份固定，服装、光线和 campaign 风格才允许变化。

Prompt: Use my uploaded image as the face reference. Create a bold monochrome streetwear editorial poster featuring the uploaded person in oversized urban fashion, relaxed stance, hands in pockets, layered baggy clothing, sneakers, and confident rebellious attitude. Preserve face identity while changing styling, lighting, and composition. High contrast lighting, poster-scale framing, dramatic shadows, clean negative space, no extra text.

完整示例：从 launch brief 到第一版提示词

原始 brief

你要为一款哑光铝制水瓶做新品发布视觉，这张图既要能用于产品发布帖，也要能落到商品详情页。瓶身轮廓和瓶盖颜色必须稳定，画面顶部还要预留标题空间。

提示词第一版

Premium launch visual for a matte aluminum water bottle, centered hero composition on a deep graphite stage, crisp brushed-metal texture, cool rim light, subtle shadow, premium ecommerce realism, 4:5 aspect ratio, clear negative space above the bottle for headline, no text, no watermark.

第一轮生成后的修正

如果材质对了，但瓶盖颜色乱了，不要整条重写。加参考图，并明确说明参考图负责瓶身轮廓、瓶盖颜色和 Logo 位置。如果身份正确但“发布感”太弱，就先保留主体和裁切，只调灯光与色板。

别急着继续堆形容词

多数弱提示词的问题，不是“不够会写”，而是核心控制点缺失。先补精度，再补文艺。

画面乱：先加裁切、机位和留白规则。
主体飘：先收紧主体句或加参考图。
风格泛：先补受众、渠道和品牌色。
文字总是坏：从提示词里删掉文字，只留后期加字空间。

在 Vogue AI 里怎么选模型

在 Vogue AI 里，提示词骨架应尽量稳定，模型选择则跟着失败风险走。别因为“热门”就换模型。

需要更强指令控制、物体控制和场景修正时，用 GPT Image 2。
需要快速变体、轻量探索或快速 image-to-image 时，用 Nano Banana。
需要 mood、时尚感或更强风格化探索时，用 Midjourney。
跨模型测试时尽量保持同一套骨架，否则你很难判断到底是模型变了还是提示词变了。

第一轮生成后先改什么

把第一轮结果和真实任务对比。最快的改法，是先找出最大的生产级失败点，只修这一层。

问题	先修什么	避免什么
产品、人脸或屏幕身份错误	强化主体句，或加带控制说明的参考图。	身份没稳住就先堆 mood 词。
构图太弱	先改裁切、机位、距离或留白。	构图没修就先换模型。
风格太泛	补受众、品牌色、材质和渠道上下文。	整条提示词从零重写。
文字或 Logo 崩坏	生成时去掉文字，改为预留空白区域。	要求模型一次写对最终营销文案。
好结果越改越飘	复制最好版本，只替换变量。	在同一条不稳定提示词上不断加改动。

身份问题：先改主体边界或参考图交接。
版式问题：再改比例、裁切和留白。
风格问题：等画面稳定后再改色板、灯光和受众。
生产问题：把文字、法律文案或细小 UI 细节留到后期设计工具处理。

FAQ

什么样的 text to image prompt 算好提示词？

能明确说明主体、构图、风格、输出规则和检查点，并且第一轮结果可以对照真实 brief 判断的提示词，就是好提示词。

每次都要写很长的提示词吗？

不一定。只要足够控制主体、画面和输出即可。华丽词汇只有在核心结构已经稳住时才有价值。

什么时候加参考图最合适？

当身份需要稳定时：产品形状、包装、人脸、Logo 位置、色板或 UI 层级。纯探索场景下，纯文本往往更快。

在 Vogue AI 里先试哪个模型？

看失败风险。GPT Image 2 更适合控制，Nano Banana 更适合快速变体，Midjourney 更适合风格探索。

为什么我的 text to image prompts 总是生成很泛的图？

通常不是词不够多，而是缺少受众、渠道、色板或构图规则。泛图大多来自 vague brief。

怎么把 prompt 优化沉淀成可复用资产？

保存真正解决任务的版本，标清变量字段，再复制给下一个 campaign、portrait、product shot 或 UI concept。

从清晰开始，并且可复用的 text to image prompts