马里兰MIT等团队研发,Prompt提升大模型性能49%
快速阅读: 马里兰大学、MIT、斯坦福等研究发现,优化提示词可将AI性能提升49%,与模型升级效果相当。实验中,DALL-E 3图像相似度显著优于DALL-E 2,其中49%的提升来自提示词优化。
提示词才是AI隐藏的王牌!马里兰大学、MIT、斯坦福等顶尖机构研究证明,优化提示词可以将AI性能提升49%。
研究发现,AI性能的提升一半靠模型,另一半靠提示词。近期,来自马里兰大学、MIT、斯坦福等机构的研究人员验证了这一点,模型升级带来的性能提升仅占50%,另一半提升则来自用户提示词的优化。他们将此称为「提示词适应」(prompt adaptation)。
研究团队让DALL-E 2和DALL-E 3进行了一场对比测试,1893名参与者在10次尝试中,用随机分配的三种模型之一复现目标图像。结果显示,DALL-E 3图像相似度显著优于DALL-E 2。其中,模型升级本身仅贡献了51%的性能提升,剩余49%则来自受试者优化的提示词。值得注意的是,即使是没有技术背景的人,也能通过优化提示词,使DALL-E 3生成更好的图片。
OpenAI总裁Greg Brockman表示,要充分发挥模型的潜力,确实需要一些特殊技巧。他建议开发者管理「提示词库」,不断探索模型的边界。换句话说,提示词水平决定了AI能否从“青铜”变成“王者”。
GenAI的有效性不仅取决于技术本身,更取决于能否设计出高质量的输入指令。2023年,ChatGPT爆红后,全球掀起了一股“提示词工程”的热潮。尽管“上下文工程”成为今年的热点,但“提示词工程”至今依然炙手可热。然而,提示词设计作为一种动态实践,仍缺乏深入研究。大多数提示词库和教程将有效提示视为“可复用成品”,但在新模板中可能失效。这引发了一些现实问题:提示策略能否跨模型版本迁移?还是必须持续调整以适应模型行为的变化?
为此,研究团队提出了「提示词适应」这一可测量的行为机制,用以解释用户输入如何随技术进步而演进。他们将其概念化为一种“动态互补能力”,并认为这种能力对充分释放大模型的经济价值至关重要。
为评估提示词适应对模型性能的影响,研究团队在Prolific平台上进行了预注册在线实验,共邀请了1893名参与者。每位参与者被随机分配到三种不同性能的模型之一:DALL-E 2、DALL-E 3,或自动提示优化的DALL-E 3。每位参与者还独立分配到15张目标图像中的一张,这些图像选自商业营销、平面设计和建筑摄影三大类别。实验明确告知参与者模型无记忆功能——每个新提示词均独立处理,不继承先前尝试的信息。每人需要提交至少10条提示词,通过模型尽可能复现目标图像,最优表现者将获得高额奖金。任务结束后,参与者需填写涵盖年龄、性别、教育程度、职业及创意写作/编程/生成式AI自评能力的人口统计调查。
实验的核心结果指标是参与者生成的每张图像与指定目标图像之间的相似度。这一指标通过CLIP嵌入向量的余弦相似度进行量化。由于生成模型的输出具有随机性,同一提示词在不同尝试中可能产生不同的图像。为控制这种变异性,研究人员为每个提示词生成10张图像,并分别计算它们与目标图像的余弦相似度,随后取这10个相似度得分的平均值作为该提示词的预期质量分数。
实验的另一个核心目标是厘清图像复现性能的提升中,有多少源于更强大的模型,又有多少来自提示词的优化。根据概念框架的表述,当模型从能力水平θ1升级至更高水平θ2时,其输出质量的总改进可表示为:
研究人员将这一变化分解为两部分:
1. 模型效应:将相同提示词应用于更优模型时,获得的性能提升;
2. 提示词效应:通过调整提示词以充分发挥更强大模型优势所带来的额外改进。
为实证评估这两个组成部分,研究人员对DALL-E 2和DALL-E 3(原词版)实验组参与者的提示词进行了额外分析。具体方法是将实验过程中参与者提交的原始提示词,重新提交至其原分配模型和另一模型,并分别生成新图像。
– 分离模型效应:针对DALL-E 2参与者编写的提示词(x*(θ1,s)),团队同时在DALL-E 2和DALL-E 3模型上进行评估,分别获得Q[θ1s,x*(θ1,s)]和Q[θ2,s,x*(θ1,s)]的实测值。这一对比可分离出模型效应:即在固定提示词情况下,仅通过升级模型获得的输出质量提升。
– 比较提示效应:为了评估提示词效应,作者还比较了以下两组数据:
1. 在DALL-E 3上回放DALL-E 2提示词的质量(即Q[θ2,s,x*(θ1,s)]估计值)
2. DALL-E 3的参与者专门为模型编写的提示词在相同模型上的质量(即Q[θ2,s,x*(θ2,s)]估计值)
这一差异反映了用户通过调整提示词,使模型本身得到的额外改进。
实验结果表明,DALL-E 3强大的生成能力中,提示词解锁了一半的性能提升。研究团队主要探讨了三大问题:
(i) 使用更强大的模型(DALL-E 3)是否能提升用户表现;
(ii) 用户在使用更强模型时如何改写或优化他们的提示词;
(iii) 整体性能提升中有多少应归因于模型改进,多少应归因于提示词的适应性调整。
首先,团队验证了使用DALL-E 3的参与者是否比使用DALL-E 2的参与者表现更优。结果显示,在10次必要的提示尝试中,使用DALL-E 3的参与者生成图像与目标图像的余弦相似度平均高出0.0164,相当于0.19个标准差。这种优势在10次尝试中持续存在,表明模型升级确实带来了显著的性能提升。
参与者的动态提示行为在两种模型间也存在显著差异。DALL-E 3使用者的提示文本平均比DALL-E 2组长24%,且该差距随尝试次数逐渐扩大。他们更倾向于复用或优化先前提示,这表明当发现模型能处理复杂指令后,他们会采取更具开发性的策略。此外,词性分析证实,增加的词汇量提供的是实质性描述信息而非冗余内容:名词和形容词(最具描述性的两类词性)占比在两种模型间基本一致(DALL-E 3组48% vs DALL-E 2组49%,p = 0.215)。这说明提示文本的延长反映了语义信息的丰富化,而非无意义的冗长。
研究人员观察到提示行为的差异表明,用户会主动适应所分配模型的能力。DALL-E 3使用者的整体性能提升中,有多少源自模型技术能力的增强,又有多少归因于用户针对该能力重写提示?为解答这一问题,研究人员采用前文所述的回放分析法,以实证分离这两种效应。
模型效应:将DALL-E 2参与者编写的原始提示分别在DALL-E 2和DALL-E 3上评估性能。结果显示,相同提示在DALL-E 3上运行时余弦相似度提升0.0084(p<10^-8),占两组总性能差异的51%。
提示效应:将DALL-E 2参与者的原始提示与DALL-E 3参与者编写的提示(均在DALL-E 3上评估)进行对比。结果显示,该效应贡献了剩余48%的改进,对应余弦相似度提升0.0079(p=0.024)。
总处理效应:总处理效应为0.0164,关键的是,当DALL-E 3用户编写的提示应用于DALL-E 2时,性能较原始DALL-E 2提示无显著提升(Δ=0.0020;p=0.56)。这种不对称性印证了提示优化的效果依赖于模型执行复杂指令的能力边界。
图2B通过单一目标图像直观呈现这些效应:上行展示DALL-E 2参与者的原始提示在DALL-E 3上生成更高保真度的图像,证明固定提示下模型升级的效果;下行显示DALL-E 3参与者的提示在DALL-E 2上输出质量显著下降,凸显当模型能力不足时,提示优化的效果存在天花板。
这些发现为研究人员的理论主张提供了实证支持:提示优化是一种动态互补策略——用户根据模型能力提升而主动调整行为,且这种调整对实际性能增益的贡献不可忽视。
技能异质性:表1呈现了“回归分析结果”,测试了模型效应、提示词效应以及总效应是否会在不同技能水平的参与者之间系统性地变化。主要发现如下:
1. 总效应与表现十分位数的交互项呈负相关且统计显著(−0.000115,p = 0.0152)。这表明模型改进缩小了高、低绩效用户之间的整体差距,这与概念框架中的命题1一致。
2. 模型效应与表现十分位数的交互项同样呈负相关且统计显著(−0.000059,
(以上内容均由Ai生成)