适用于企业的 GPT-4.5:其准确性和知识是否与成本相符?
快速阅读: 《VentureBeat 公司》消息,GPT-4.5虽价格高昂,但因其强大的非推理能力和卓越的表现,特别是在处理企业文档和复杂任务规划方面,仍备受关注。尽管一些用户对其回答质量存疑,但其在知识准确性、上下文敏感度及处理数学问题方面的提升显著。随着推理成本的下降,探索其在企业应用中的潜力变得更为可行。
订阅我们的每日和每周通讯,获取行业领先的人工智能报道的最新更新和独家内容。了解详情开放AI GPT-4.5的发布令人有些失望,许多人指出其价格过高(大约比克劳德3.7索内特贵10到20倍,比GPT-4o贵15到30倍)。然而,鉴于这是开放AI最大且最强大的非推理型模型,考虑其优点及其表现突出的领域是值得的。更好的知识和对齐关于模型架构或训练语料库的细节很少,但我们粗略估计它使用了10倍的计算力进行训练。而且,由于模型庞大,开放AI需要将其训练分布在多个数据中心以在合理时间内完成。更大的模型具有更大的学习世界知识和人类语言细微差别的能力(前提是它们能够访问高质量的训练数据)。这在开放AI团队展示的一些指标中得到体现。例如,GPT-4.5在评估人工智能模型幻觉的PersonQA基准测试中获得最高排名。实际测试也表明,GPT-4.5在保持事实真实性和遵循用户指令方面优于其他通用模型。用户指出,GPT-4.5的回答感觉比以前的模型更加自然和上下文敏感。它遵循语气和风格指南的能力也有所提高。实际测试也表明,GPT-4.5在保持事实真实性和遵循用户指令方面优于其他通用模型。在GPT-4.5发布后,AI科学家兼开放AI联合创始人安德烈·卡帕斯表示:“我预计在那些不依赖推理的任务中会看到改进,我认为这些任务更多与情商(而非智商)相关,并受限于例如世界知识、创造力、类比能力、总体理解、幽默等。”
然而,评估写作质量也非常主观。在卡帕斯针对不同提示进行的调查中,大多数高端用户更喜欢GPT-4o的回答。他在X上写道:“要么是高端用户注意到了新的独特结构,但低端用户主导了投票;要么是我们产生了错觉;要么这些例子并不那么好;或者实际上非常接近,这只是样本量太小。或者以上所有情况都有可能。”
更好的文档处理
在其实验中,已将GPT-4.5集成到其Box AI Studio产品的Box公司在其实验中写道,GPT-4.5“特别适用于企业用例,在准确性与完整性至关重要的情况下……我们的测试表明,GPT-4.5是可用的最佳模型之一,无论是从评估分数还是解决许多最难的AI问题的能力来看。”在内部评估中,Box发现GPT-4.5在企业文档问答任务上的准确率更高——在测试集中高出约4个百分点。
在其实验中,已将GPT-4.5集成到其Box AI Studio产品的Box公司在其实验中写道,GPT-4.5“特别适用于企业用例,在准确性与完整性至关重要的情况下……我们的测试表明,GPT-4.5是可用的最佳模型之一,无论是从评估分数还是解决许多最难的AI问题的能力来看。”Box的测试还表明,GPT-4.5在处理商业文件中嵌入的数学问题方面表现出色,而较旧的GPT模型往往对此感到困难。例如,它在回答需要对数据进行推理并执行计算的财务文件问题时表现更好。
在其实验中,已将GPT-4.5集成到其Box AI Studio产品的Box公司在其实验中写道,GPT-4.5“特别适用于企业用例,在准确性与完整性至关重要的情况下……我们的测试表明,GPT-4.5是可用的最佳模型之一,无论是从评估分数还是解决许多最难的AI问题的能力来看。”GPT-4.5在从非结构化数据中提取信息方面也表现出改进。在涉及从数百份法律文件中提取字段的测试中,GPT-4.5比GPT-4o准确率提高了19%。
规划、编码、评估结果
鉴于其增强的世界知识,GPT-4.5也可以成为创建复杂任务高级计划的合适模型。分解后的步骤可以交由较小但更高效的模型来细化和执行。根据Constellation Research报告,“初步测试显示,GPT-4.5在代理规划和执行方面表现出强大能力,包括多步编码工作流和复杂的任务自动化。”鉴于其增强的世界知识,GPT-4.5也可以成为创建复杂任务高级计划的合适模型。分解后的步骤可以交由较小但更高效的模型来细化和执行。GPT-4.5在需要内部和上下文知识的编码任务中也很有用。GitHub现在在其Copilot编码助手提供有限访问权限,并指出GPT-4.5“对创造性的提示反应良好,并能可靠地回应晦涩的知识查询。”
鉴于其增强的世界知识,GPT-4.5也可以成为创建复杂任务高级计划的合适模型。分解后的步骤可以交由较小但更高效的模型来细化和执行。鉴于其更深入的世界知识,GPT-4.5也适合于“大型语言模型作为裁判”的任务,其中强大的模型评估较小模型的输出。例如,一个模型如GPT-4o或o3可以生成一个或多个响应,分析解决方案并将其最终答案传递给GPT-4.5进行修订和完善。鉴于其增强的世界知识,GPT-4.5也可以成为创建复杂任务高级计划的合适模型。分解后的步骤可以交由较小但更高效的模型来细化和执行。
值得这个价格吗?
考虑到GPT-4.5的巨大成本,很难为许多应用场景辩护。但这并不意味着情况会一直如此。近年来我们看到的一个持续趋势是推理成本的急剧下降,如果这一趋势适用于GPT-4.5,那么值得尝试并找到利用其力量应用于企业应用的方法。值得注意的是,这个新模型可以成为未来推理模型的基础。根据卡帕斯的说法:“请记住,GPT-4.5仅通过预训练、监督微调和RLHF进行了训练,因此这还不是推理模型。因此,这次模型发布并未在推理至关重要的情况下(如数学、编程等)推动模型能力的发展……显然,开放AI现在将寻求在GPT-4.5模型基础上进一步训练强化学习,使其能够思考,并在这些领域推动模型能力的发展。”
每日业务用例洞察——VB每日
如果你给老板留下深刻印象,VB每日可以满足你。我们为你提供公司如何使用生成式人工智能的内幕消息,从监管变化到实际部署,以便你可以分享见解以实现最大收益。立即订阅阅读我们的隐私政策
感谢订阅。
查看更多VB通讯
(以上内容均由Ai生成)