适用于企业的 GPT-4.5:其准确性和知识是否与成本相符?

发布时间:2025年3月1日    来源:szf
适用于企业的 GPT-4.5:其准确性和知识是否与成本相符?

快速阅读: 《VentureBeat 公司》消息,GPT-4.5虽价格高昂,但因其强大的非推理能力和卓越的表现,特别是在处理企业文档和复杂任务规划方面,仍备受关注。尽管一些用户对其回答质量存疑,但其在知识准确性、上下文敏感度及处理数学问题方面的提升显著。随着推理成本的下降,探索其在企业应用中的潜力变得更为可行。

订阅我们的每日和每周通讯,获取行业领先的人工智能报道的最新更新和独家内容。了解详情开放AI GPT-4.5的发布令人有些失望,许多人指出其价格过高(大约比克劳德3.7索内特贵10到20倍,比GPT-4o贵15到30倍)。然而,鉴于这是开放AI最大且最强大的非推理型模型,考虑其优点及其表现突出的领域是值得的。更好的知识和对齐关于模型架构或训练语料库的细节很少,但我们粗略估计它使用了10倍的计算力进行训练。而且,由于模型庞大,开放AI需要将其训练分布在多个数据中心以在合理时间内完成。更大的模型具有更大的学习世界知识和人类语言细微差别的能力(前提是它们能够访问高质量的训练数据)。这在开放AI团队展示的一些指标中得到体现。例如,GPT-4.5在评估人工智能模型幻觉的PersonQA基准测试中获得最高排名。实际测试也表明,GPT-4.5在保持事实真实性和遵循用户指令方面优于其他通用模型。用户指出,GPT-4.5的回答感觉比以前的模型更加自然和上下文敏感。它遵循语气和风格指南的能力也有所提高。实际测试也表明,GPT-4.5在保持事实真实性和遵循用户指令方面优于其他通用模型。在GPT-4.5发布后,AI科学家兼开放AI联合创始人安德烈·卡帕斯表示:“我预计在那些不依赖推理的任务中会看到改进,我认为这些任务更多与情商(而非智商)相关,并受限于例如世界知识、创造力、类比能力、总体理解、幽默等。”

然而,评估写作质量也非常主观。在卡帕斯针对不同提示进行的调查中,大多数高端用户更喜欢GPT-4o的回答。他在X上写道:“要么是高端用户注意到了新的独特结构,但低端用户主导了投票;要么是我们产生了错觉;要么这些例子并不那么好;或者实际上非常接近,这只是样本量太小。或者以上所有情况都有可能。”

更好的文档处理

在其实验中,已将GPT-4.5集成到其Box AI Studio产品的Box公司在其实验中写道,GPT-4.5“特别适用于企业用例,在准确性与完整性至关重要的情况下……我们的测试表明,GPT-4.5是可用的最佳模型之一,无论是从评估分数还是解决许多最难的AI问题的能力来看。”在内部评估中,Box发现GPT-4.5在企业文档问答任务上的准确率更高——在测试集中高出约4个百分点。

在其实验中,已将GPT-4.5集成到其Box AI Studio产品的Box公司在其实验中写道,GPT-4.5“特别适用于企业用例,在准确性与完整性至关重要的情况下……我们的测试表明,GPT-4.5是可用的最佳模型之一,无论是从评估分数还是解决许多最难的AI问题的能力来看。”Box的测试还表明,GPT-4.5在处理商业文件中嵌入的数学问题方面表现出色,而较旧的GPT模型往往对此感到困难。例如,它在回答需要对数据进行推理并执行计算的财务文件问题时表现更好。

在其实验中,已将GPT-4.5集成到其Box AI Studio产品的Box公司在其实验中写道,GPT-4.5“特别适用于企业用例,在准确性与完整性至关重要的情况下……我们的测试表明,GPT-4.5是可用的最佳模型之一,无论是从评估分数还是解决许多最难的AI问题的能力来看。”GPT-4.5在从非结构化数据中提取信息方面也表现出改进。在涉及从数百份法律文件中提取字段的测试中,GPT-4.5比GPT-4o准确率提高了19%。

规划、编码、评估结果

鉴于其增强的世界知识,GPT-4.5也可以成为创建复杂任务高级计划的合适模型。分解后的步骤可以交由较小但更高效的模型来细化和执行。根据Constellation Research报告,“初步测试显示,GPT-4.5在代理规划和执行方面表现出强大能力,包括多步编码工作流和复杂的任务自动化。”鉴于其增强的世界知识,GPT-4.5也可以成为创建复杂任务高级计划的合适模型。分解后的步骤可以交由较小但更高效的模型来细化和执行。GPT-4.5在需要内部和上下文知识的编码任务中也很有用。GitHub现在在其Copilot编码助手提供有限访问权限,并指出GPT-4.5“对创造性的提示反应良好,并能可靠地回应晦涩的知识查询。”

鉴于其增强的世界知识,GPT-4.5也可以成为创建复杂任务高级计划的合适模型。分解后的步骤可以交由较小但更高效的模型来细化和执行。鉴于其更深入的世界知识,GPT-4.5也适合于“大型语言模型作为裁判”的任务,其中强大的模型评估较小模型的输出。例如,一个模型如GPT-4o或o3可以生成一个或多个响应,分析解决方案并将其最终答案传递给GPT-4.5进行修订和完善。鉴于其增强的世界知识,GPT-4.5也可以成为创建复杂任务高级计划的合适模型。分解后的步骤可以交由较小但更高效的模型来细化和执行。

值得这个价格吗?

考虑到GPT-4.5的巨大成本,很难为许多应用场景辩护。但这并不意味着情况会一直如此。近年来我们看到的一个持续趋势是推理成本的急剧下降,如果这一趋势适用于GPT-4.5,那么值得尝试并找到利用其力量应用于企业应用的方法。值得注意的是,这个新模型可以成为未来推理模型的基础。根据卡帕斯的说法:“请记住,GPT-4.5仅通过预训练、监督微调和RLHF进行了训练,因此这还不是推理模型。因此,这次模型发布并未在推理至关重要的情况下(如数学、编程等)推动模型能力的发展……显然,开放AI现在将寻求在GPT-4.5模型基础上进一步训练强化学习,使其能够思考,并在这些领域推动模型能力的发展。”

每日业务用例洞察——VB每日

如果你给老板留下深刻印象,VB每日可以满足你。我们为你提供公司如何使用生成式人工智能的内幕消息,从监管变化到实际部署,以便你可以分享见解以实现最大收益。立即订阅阅读我们的隐私政策

感谢订阅。

查看更多VB通讯

(以上内容均由Ai生成)

你可能还想读

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日
人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

快速阅读: 据《印度教业务线》称,印度联合创始人纳南·尼莱卡尼表示,AI应用于解决实际问题,提升医疗与教育,强调简约设计和持续创新,反对全民基本收入,主张用AI放大人类潜力。 据《亚洲时报》报道,7月27日,纽约,印度信息技术服务巨头Inf […]

发布时间:2025年8月1日