行业观察家称 Gpt-4.5 是一个“奇怪”的模型,质疑其价格

发布时间:2025年2月28日    来源:szf
行业观察家称 Gpt-4.5 是一个“奇怪”的模型,质疑其价格

快速阅读: 据《VentureBeat 公司》最新报道,OpenAI发布了GPT-4.5,这是一个计算效率更高的大型语言模型。虽然它在多项测试中表现优于GPT-4,但并未在推理能力上有显著提升。Box CEO表示,GPT-4.5在处理复杂企业内容方面表现出色,但其高昂的成本引发质疑。部分专家认为,其性能并不突出,且闭源性质使其缺乏竞争力。

(注:已将英文原文翻译成中文)

加入我们的每日和每周通讯,获取行业领先的人工智能覆盖的最新更新和独家内容。了解更多,OpenAI宣布发布了GPT-4.5版本,CEO山姆·阿尔特曼此前曾表示这将是最后一个非链式思维(CoT)模型。该公司表示,新模型“并不是前沿模型”,但仍然是其最大的大型语言模型(LLM),具有更高的计算效率。阿尔特曼表示,尽管GPT-4.5的推理方式与OpenAI的其他新产品o1或o3-mini不同,但这一新模型仍然提供了更人性化的思想性。许多早期获得新模型访问权限的行业观察者发现,GPT-4.5是OpenAI的一个有趣举措,他们对模型应能达到的效果有所保留。沃顿商学院教授兼人工智能评论员伊森·莫尔克在社交媒体上表示,GPT-4.5是一个“非常奇怪且有趣的模型”,尽管它在复杂项目上有时会显得懒散,但它是一位强有力的写作者。OpenAI联合创始人、前特斯拉AI负责人安德烈·卡帕斯蒂指出,GPT-4.5让他回想起GPT-4发布时的情景,并看到了模型的潜力。他在X平台的一篇文章中表示,在使用GPT 4.5时,“一切都有所改善,这很棒,但也不完全显而易见”。然而,卡帕斯蒂警告说,人们不应期待该模型带来革命性的影响,因为它在推理至关重要的情况下(如数学、代码等)并未推进模型能力。

行业观点详细内容
以下是卡帕斯蒂在X平台上关于最新GPT迭代的长篇帖子中的内容:“今天标志着OpenAI发布了GPT4.5。自从GPT4发布以来,我就期待这一刻大约两年了,因为这次发布提供了一个定性测量,即通过扩大预训练计算规模(即简单地训练更大的模型)所能获得的进步斜率。每个版本的0.5大致相当于10倍的预训练计算。现在,请记住,GPT1几乎无法生成连贯的文本。GPT2是一个困惑的玩具。GPT2.5直接跳过了GPT3,后者更加有趣。GPT3.5达到了一个足够水平,可以作为产品发布,引发了OpenAI的‘ChatGPT时刻’。而GPT4也感觉更好,但我必须说,它确实感觉很微妙。我记得在一次黑客马拉松中尝试找到明确的例子,证明GPT4比3.5表现得更好。这些例子确实存在,但清晰且具体的‘一击必杀’的例子很难找到。就是这样……一切都只是稍微好了一点,但这种变化是分散的。用词选择更加有创意。对提示中细微之处的理解有所提高。类比更合理。模型更有趣。世界知识和理解在罕见领域的边缘得到了提升。幻觉出现得不那么频繁。氛围略微改善。感觉就像水位上升,所有船只都略有提升,每样东西都提高了20%。因此,带着这样的预期,我测试了GPT4.5,我有几天的时间来测试它,它接受了比GPT4多10倍的预训练计算。我觉得,再一次,我回到了两年前的那个黑客马拉松。一切都有所改善,这很棒,但也不完全显而易见。尽管如此,这仍然是一个非常有趣和令人兴奋的定性测量,表明从更大模型的预训练中可以获得某种能力的斜率。请记住,GPT4.5仅通过预训练、监督微调和RLHF进行训练,所以这还不是一种推理模型。因此,在推理至关重要的情况下(如数学、代码等),这一模型发布并没有推动模型能力的发展。在这种情况下,使用强化学习进行训练并获得思考能力非常重要,即使是在旧的基础模型(如GPT4左右的能力)之上也是如此。这里最先进的状态仍然是完整的o1。显然,OpenAI现在将寻求进一步利用GPT4.5进行强化学习训练,以允许它进行思考并在这些领域推动模型能力。然而,我们确实期望看到在不需要大量推理的任务中有所改进,我认为这些任务更多与情商(而非智商)相关,并且受到世界知识、创造力、类比制作、一般理解、幽默等因素的限制。因此,这些是我最感兴趣的在氛围检查中的任务。下面,我认为有趣的是突出5个有趣的/令人发笑的提示来测试这些能力,并在此X平台上组织成一个互动的‘LM Arena Lite’,使用图片和投票组合在一个线程中。遗憾的是,X不允许你在单个帖子中包含图片和投票,所以我不得不交替发布包含图片(显示提示以及来自4和4.5的两个响应)的帖子和投票,人们可以在其中投票选择哪个更好。8小时后,我将揭示哪个模型是哪个。让我们看看会发生什么。

Box首席执行官对GPT-4.5的看法
其他早期用户也看到了GPT-4.5的潜力。Box首席执行官亚伦·莱维在X上表示,他的公司使用GPT-4.5帮助从复杂的公司内容中提取结构化数据和元数据。“人工智能突破不断涌现。OpenAI今天发布了GPT-4.5,我们将在今天晚些时候向Box客户提供。我们一直在Box AI的早期访问模式下测试GPT4.5,用于高级企业非结构化数据应用场景,并取得了显著成果。在Box AI的企业评估中,我们针对各种不同的场景测试模型,如问答准确性、推理能力等。特别是为了探索GPT-4.5的能力,我们专注于一个具有重大企业影响潜力的关键领域:从复杂企业内容中提取结构化数据或元数据提取。在Box,我们使用多个企业级数据集严格评估数据提取模型。我们利用的一个关键数据集是CUAD,其中包括超过510份商业法律合同。在这个数据集中,Box已经识别出可以从非结构化内容中提取的17,000个字段,并根据单次提取这些字段的情况评估模型(这是我们的最难测试之一,模型只有一次机会一次性提取所有元数据,而不是多次尝试)。在我们的测试中,GPT-4.5正确提取了比GPT-4多19个百分点的字段,突显了其处理复杂合同时更好的能力。接下来,为了确保GPT-4.5能够应对现实世界企业内容的需求,我们对其性能进行了更严格的文件评估,包括Box自己的挑战集。我们选择了复杂法律合同的子集——那些包含多模态内容、高密度信息且长度超过200页的合同——以代表客户面临的最困难场景。在这组挑战中,GPT-4.5在提取关键字段方面也始终优于GPT-4,展示了其处理复杂和细微法律文档的优越能力。总体来说,我们在复杂企业数据上看到了GPT-4.5的强劲表现,这将解锁更多的企业应用场景。

价格及其重要性的疑问
即使早期用户发现GPT-4.5可用——尽管有些懒散——他们也对其发布提出了一些疑问。例如,著名OpenAI批评家加里·马库斯在Bluesky上称GPT-4.5为“无足轻重”。Hugging Face首席执行官克莱门特·德拉让评论说,GPT4.5的闭源性质使其“平平无奇”。然而,许多人指出,GPT-4.5的性能与其表现无关。相反,人们质疑为什么OpenAI会发布一个如此昂贵的模型,以至于几乎禁止使用,但其性能不如其他模型。一位用户在X上评论道:“所以你是说GPT-4.5比o1更有价值,但在基准测试中表现却不如它……让它说得通。”其他X用户提出了理论,认为高昂的令牌成本可能是为了阻止竞争对手如DeepSeek“提炼4.5模型”。DeepSeek在一月份成为了OpenAI的大竞争对手,行业领导者发现DeepSeek-R1的推理能力与OpenAI相当,但价格更为实惠。

每日业务用例洞察
如果您想给老板留下深刻印象,VB Daily为您服务。我们为您提供公司如何使用生成式人工智能的内部消息,从监管变动到实际部署,以便您分享见解以实现最大回报。立即订阅阅读我们的隐私政策感谢订阅。

(以上内容均由Ai生成)

你可能还想读

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日
人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

快速阅读: 据《印度教业务线》称,印度联合创始人纳南·尼莱卡尼表示,AI应用于解决实际问题,提升医疗与教育,强调简约设计和持续创新,反对全民基本收入,主张用AI放大人类潜力。 据《亚洲时报》报道,7月27日,纽约,印度信息技术服务巨头Inf […]

发布时间:2025年8月1日