马里兰MIT等团队提升大模型性能49%，Prompt成关键武器

快速阅读: 马里兰大学等机构研究发现，提示词优化能显著提升AI性能，DALL-E 3相比DALL-E 2，图像相似度提升49%归因于提示词优化，用户无需技术背景即可改善AI生成效果。

马里兰大学、麻省理工学院、斯坦福大学等机构联合研究发现，提示词优化是提高AI性能的关键因素之一，能够使AI性能提升49%。研究团队在论文中指出，AI性能的提升，一半依赖于模型本身的升级，另一半则来自于用户提示词的优化。他们将这一过程称为“提示词适应”。

研究团队通过实验验证了这一结论。实验中，1893名参与者使用DALL-E 2和DALL-E 3两种模型，在10次尝试中复现目标图像。结果显示，DALL-E 3生成的图像相似度显著高于DALL-E 2。其中，模型升级本身仅贡献了51%的性能提升，其余49%则归功于用户优化的提示词。

值得注意的是，即使是没有技术背景的参与者，也能通过优化提示词，使DALL-E 3生成更高质量的图像。OpenAI总裁Greg Brockman认为，要充分发挥模型的潜力，确实需要掌握一些特殊技巧。他建议开发者管理和维护“提示词库”，不断探索模型的边界。

2023年，随着ChatGPT的爆红，全球掀起了一股“提示词工程”的热潮。尽管“上下文工程”成为今年的热点，但“提示词工程”依然备受关注。然而，提示词设计作为一种动态实践，仍缺乏深入研究。大多数提示词库和教程将有效提示视为“可复用成品”，但在新模板中可能失效，这引发了一些现实问题：提示策略能否跨模型版本迁移？还是必须持续调整以适应模型行为的变化？

为了解答这些问题，研究团队提出了“提示词适应”这一可测量的行为机制，用以解释用户输入如何随技术进步而演进。他们将其概念化为一种“动态互补能力”，认为这种能力对充分释放大模型的经济价值至关重要。

研究团队通过Prolific平台进行了一项预注册在线实验，邀请1893名参与者，每人被随机分配到三种不同性能的模型之一：DALL-E 2、DALL-E 3或自动提示优化的DALL-E 3。每位参与者还需独立选择15张目标图像中的一张，这些图像来自商业营销、平面设计和建筑摄影三大类别。实验明确告知参与者模型无记忆功能，每个新提示词均独立处理，不继承先前尝试的信息。每位参与者需要提交至少10条提示词，通过模型尽可能复现目标图像，表现最优者将获得高额奖金。

实验的核心结果指标是参与者生成的每张图像与指定目标图像之间的相似度，通过CLIP嵌入向量的余弦相似度进行量化。由于生成模型的输出具有随机性，同一提示词在不同尝试中可能产生不同的图像，研究人员为每个提示词生成10张图像，并计算它们与目标图像的余弦相似度，取平均值作为该提示词的预期质量分数。

实验的另一个核心目标是厘清图像复现性能的提升中，有多少源于更强大的模型，又有多少来自提示词的优化。研究人员将DALL-E 2和DALL-E 3（原词版）实验组参与者的提示词进行了额外分析。具体方法是将实验过程中参与者提交的原始提示词，重新提交至其原分配模型和另一模型，生成新图像。

研究发现，当模型从DALL-E 2升级到DALL-E 3时，性能提升的51%归因于模型效应，即相同提示词在更优模型上获得的性能提升；49%归因于提示词效应，即通过调整提示词以充分发挥更强大模型的优势所带来的额外改进。

实验结果显示，使用DALL-E 3的参与者生成的图像与目标图像的余弦相似度平均高出0.0164，相当于0.19个标准差。这种优势在10次尝试中持续存在，表明模型升级确实带来了显著的性能提升。此外，DALL-E 3使用者的提示文本平均比DALL-E 2组长24%，且该差距随尝试次数逐渐扩大，显示出用户会根据模型能力调整提示词策略。

研究人员还评估了自动化提示词的效果，发现GPT-4经常添加无关细节或微妙改变参与者的原意，导致模型输出质量下降58%。这表明，AI生成的提示词不如用户精心编制的提示词有效。

研究团队成员包括马里兰大学商学院信息系统专业的助理教授Eaman Jahani、MIT斯隆管理学院IT组的四年级博士生Benjamin S. Manning和斯坦福大学博士生Joe Zhang。他们的研究为理解提示词优化对AI性能的影响提供了实证支持。

(以上内容均由Ai生成)