AI

马里兰MIT等团队研发,Prompt提升大模型性能49%

发布时间:2025年8月20日    来源:szf
马里兰MIT等团队研发,Prompt提升大模型性能49%

快速阅读: 马里兰大学、MIT、斯坦福等研究发现,优化提示词可将AI性能提升49%,与模型升级效果相当。实验中,DALL-E 3图像相似度显著优于DALL-E 2,其中49%的提升来自提示词优化。

提示词才是AI隐藏的王牌!马里兰大学、MIT、斯坦福等顶尖机构研究证明,优化提示词可以将AI性能提升49%。

研究发现,AI性能的提升一半靠模型,另一半靠提示词。近期,来自马里兰大学、MIT、斯坦福等机构的研究人员验证了这一点,模型升级带来的性能提升仅占50%,另一半提升则来自用户提示词的优化。他们将此称为「提示词适应」(prompt adaptation)。

研究团队让DALL-E 2和DALL-E 3进行了一场对比测试,1893名参与者在10次尝试中,用随机分配的三种模型之一复现目标图像。结果显示,DALL-E 3图像相似度显著优于DALL-E 2。其中,模型升级本身仅贡献了51%的性能提升,剩余49%则来自受试者优化的提示词。值得注意的是,即使是没有技术背景的人,也能通过优化提示词,使DALL-E 3生成更好的图片。

OpenAI总裁Greg Brockman表示,要充分发挥模型的潜力,确实需要一些特殊技巧。他建议开发者管理「提示词库」,不断探索模型的边界。换句话说,提示词水平决定了AI能否从“青铜”变成“王者”。

GenAI的有效性不仅取决于技术本身,更取决于能否设计出高质量的输入指令。2023年,ChatGPT爆红后,全球掀起了一股“提示词工程”的热潮。尽管“上下文工程”成为今年的热点,但“提示词工程”至今依然炙手可热。然而,提示词设计作为一种动态实践,仍缺乏深入研究。大多数提示词库和教程将有效提示视为“可复用成品”,但在新模板中可能失效。这引发了一些现实问题:提示策略能否跨模型版本迁移?还是必须持续调整以适应模型行为的变化?

为此,研究团队提出了「提示词适应」这一可测量的行为机制,用以解释用户输入如何随技术进步而演进。他们将其概念化为一种“动态互补能力”,并认为这种能力对充分释放大模型的经济价值至关重要。

为评估提示词适应对模型性能的影响,研究团队在Prolific平台上进行了预注册在线实验,共邀请了1893名参与者。每位参与者被随机分配到三种不同性能的模型之一:DALL-E 2、DALL-E 3,或自动提示优化的DALL-E 3。每位参与者还独立分配到15张目标图像中的一张,这些图像选自商业营销、平面设计和建筑摄影三大类别。实验明确告知参与者模型无记忆功能——每个新提示词均独立处理,不继承先前尝试的信息。每人需要提交至少10条提示词,通过模型尽可能复现目标图像,最优表现者将获得高额奖金。任务结束后,参与者需填写涵盖年龄、性别、教育程度、职业及创意写作/编程/生成式AI自评能力的人口统计调查。

实验的核心结果指标是参与者生成的每张图像与指定目标图像之间的相似度。这一指标通过CLIP嵌入向量的余弦相似度进行量化。由于生成模型的输出具有随机性,同一提示词在不同尝试中可能产生不同的图像。为控制这种变异性,研究人员为每个提示词生成10张图像,并分别计算它们与目标图像的余弦相似度,随后取这10个相似度得分的平均值作为该提示词的预期质量分数。

实验的另一个核心目标是厘清图像复现性能的提升中,有多少源于更强大的模型,又有多少来自提示词的优化。根据概念框架的表述,当模型从能力水平θ1升级至更高水平θ2时,其输出质量的总改进可表示为:

研究人员将这一变化分解为两部分:

1. 模型效应:将相同提示词应用于更优模型时,获得的性能提升;

2. 提示词效应:通过调整提示词以充分发挥更强大模型优势所带来的额外改进。

为实证评估这两个组成部分,研究人员对DALL-E 2和DALL-E 3(原词版)实验组参与者的提示词进行了额外分析。具体方法是将实验过程中参与者提交的原始提示词,重新提交至其原分配模型和另一模型,并分别生成新图像。

– 分离模型效应:针对DALL-E 2参与者编写的提示词(x*(θ1,s)),团队同时在DALL-E 2和DALL-E 3模型上进行评估,分别获得Q[θ1s,x*(θ1,s)]和Q[θ2,s,x*(θ1,s)]的实测值。这一对比可分离出模型效应:即在固定提示词情况下,仅通过升级模型获得的输出质量提升。

– 比较提示效应:为了评估提示词效应,作者还比较了以下两组数据:

1. 在DALL-E 3上回放DALL-E 2提示词的质量(即Q[θ2,s,x*(θ1,s)]估计值)

2. DALL-E 3的参与者专门为模型编写的提示词在相同模型上的质量(即Q[θ2,s,x*(θ2,s)]估计值)

这一差异反映了用户通过调整提示词,使模型本身得到的额外改进。

实验结果表明,DALL-E 3强大的生成能力中,提示词解锁了一半的性能提升。研究团队主要探讨了三大问题:

(i) 使用更强大的模型(DALL-E 3)是否能提升用户表现;

(ii) 用户在使用更强模型时如何改写或优化他们的提示词;

(iii) 整体性能提升中有多少应归因于模型改进,多少应归因于提示词的适应性调整。

首先,团队验证了使用DALL-E 3的参与者是否比使用DALL-E 2的参与者表现更优。结果显示,在10次必要的提示尝试中,使用DALL-E 3的参与者生成图像与目标图像的余弦相似度平均高出0.0164,相当于0.19个标准差。这种优势在10次尝试中持续存在,表明模型升级确实带来了显著的性能提升。

参与者的动态提示行为在两种模型间也存在显著差异。DALL-E 3使用者的提示文本平均比DALL-E 2组长24%,且该差距随尝试次数逐渐扩大。他们更倾向于复用或优化先前提示,这表明当发现模型能处理复杂指令后,他们会采取更具开发性的策略。此外,词性分析证实,增加的词汇量提供的是实质性描述信息而非冗余内容:名词和形容词(最具描述性的两类词性)占比在两种模型间基本一致(DALL-E 3组48% vs DALL-E 2组49%,p = 0.215)。这说明提示文本的延长反映了语义信息的丰富化,而非无意义的冗长。

研究人员观察到提示行为的差异表明,用户会主动适应所分配模型的能力。DALL-E 3使用者的整体性能提升中,有多少源自模型技术能力的增强,又有多少归因于用户针对该能力重写提示?为解答这一问题,研究人员采用前文所述的回放分析法,以实证分离这两种效应。

模型效应:将DALL-E 2参与者编写的原始提示分别在DALL-E 2和DALL-E 3上评估性能。结果显示,相同提示在DALL-E 3上运行时余弦相似度提升0.0084(p<10^-8),占两组总性能差异的51%。

提示效应:将DALL-E 2参与者的原始提示与DALL-E 3参与者编写的提示(均在DALL-E 3上评估)进行对比。结果显示,该效应贡献了剩余48%的改进,对应余弦相似度提升0.0079(p=0.024)。

总处理效应:总处理效应为0.0164,关键的是,当DALL-E 3用户编写的提示应用于DALL-E 2时,性能较原始DALL-E 2提示无显著提升(Δ=0.0020;p=0.56)。这种不对称性印证了提示优化的效果依赖于模型执行复杂指令的能力边界。

图2B通过单一目标图像直观呈现这些效应:上行展示DALL-E 2参与者的原始提示在DALL-E 3上生成更高保真度的图像,证明固定提示下模型升级的效果;下行显示DALL-E 3参与者的提示在DALL-E 2上输出质量显著下降,凸显当模型能力不足时,提示优化的效果存在天花板。

这些发现为研究人员的理论主张提供了实证支持:提示优化是一种动态互补策略——用户根据模型能力提升而主动调整行为,且这种调整对实际性能增益的贡献不可忽视。

技能异质性:表1呈现了“回归分析结果”,测试了模型效应、提示词效应以及总效应是否会在不同技能水平的参与者之间系统性地变化。主要发现如下:

1. 总效应与表现十分位数的交互项呈负相关且统计显著(−0.000115,p = 0.0152)。这表明模型改进缩小了高、低绩效用户之间的整体差距,这与概念框架中的命题1一致。

2. 模型效应与表现十分位数的交互项同样呈负相关且统计显著(−0.000059,

(以上内容均由Ai生成)

你可能还想读

芯纬内部人士抛售超10亿美元股票引发警报

芯纬内部人士抛售超10亿美元股票引发警报

快速阅读: 纳斯达克上市公司CoreWeave因内部人士大量抛售股票受关注,10月交易超10亿美元,股价承压下跌,引发投资者对该公司信心的质疑。 纳斯达克上市的CoreWeave (CRVW)因内部人士大量抛售股票而受到广泛关注。10月,一 […]

发布时间:2025年10月24日
升腾首席分析与AI官:用数学背景解决医疗问题

升腾首席分析与AI官:用数学背景解决医疗问题

快速阅读: 安森斯首席分析与人工智能官卡提克·拉贾强调,人工智能是一类问题而非单一事物,需识别并应用正确方法解决。他领导团队利用AI优化医疗流程,提高决策效率,同时注重人才培养和道德领导。 卡提克·拉贾,这家覆盖16个州的大型医疗系统首席分 […]

发布时间:2025年10月24日
格拉斯利宣布法官使用AI致法庭命令出错,实施新政

格拉斯利宣布法官使用AI致法庭命令出错,实施新政

快速阅读: 美国参议院司法委员会主席格拉斯利宣布收到法官们关于AI导致法院命令出错的回应,法官温盖特和尼尔斯承认错误并实施新政策,确保命令准确性,同时法院行政办公室成立AI咨询工作组,发布临时指导方针。 美国参议院司法委员会主席查克·格拉斯 […]

发布时间:2025年10月24日
AI视频生成系统不断进步,ChatGPT创始人更新发展计划

AI视频生成系统不断进步,ChatGPT创始人更新发展计划

快速阅读: 本周,顶尖开发者公布人工智能视频生成系统的最新进展,包括即将推出的安卓应用。该技术融合多种特性,引发艺术与伦理讨论,但仍不断进步,输出效果惊人。 基于人工智能的视频生成系统集多种特性于一身。的确,它们引发了关于艺术、创作者角色及 […]

发布时间:2025年10月24日
美法官承认职员用AI起草错误命令

美法官承认职员用AI起草错误命令

快速阅读: 美国地方法官温盖特承认其法律助理使用AI程序起草了有误的法院命令,引发争议。温盖特表示将加强审查流程,避免类似错误。参议员格拉斯利呼吁制定更明确的AI使用政策。 密西西比州的一名联邦法官承认,其工作人员使用人工智能起草了一份有误 […]

发布时间:2025年10月24日
ChatGPT遭遇重大故障,用户报告服务中断

ChatGPT遭遇重大故障,用户报告服务中断

快速阅读: ChatGPT遭遇重大技术故障,OpenAI确认“高频率错误”,用户反馈广泛。故障始于周四上午11时(美国东部时间),Downdetector数据显示问题激增。 受连续强降雨影响,南部多地出现洪水,相关部门紧急启动防汛响应。Ch […]

发布时间:2025年10月24日
OpenAI推新浏览器Atlas,挑战Google Chrome

OpenAI推新浏览器Atlas,挑战Google Chrome

快速阅读: OpenAI推出ChatGPT Atlas浏览器,挑战谷歌Chrome,集成AI功能助用户高效完成任务,计划近期增加标签组和广告拦截器等新特性。 萨姆·阿尔特曼的OpenAI继续将其生成式AI模型整合到全球大多数人的日常工具—— […]

发布时间:2025年10月24日
ChatGPT短暂故障后恢复,医疗咨询模式引关注

ChatGPT短暂故障后恢复,医疗咨询模式引关注

快速阅读: 医学研究人员报告AI医疗失误案例,患者因咨询ChatGPT致溴化物中毒精神错乱。专家长期担忧此问题,OpenAI推出专门医疗建议模式应对。 几周前,一位医学研究人员报告了一起由AI引发的医疗失误案例,详细描述了一名患者因咨询Ch […]

发布时间:2025年10月24日