Nous Research推出四款超越ChatGPT的无限制AI模型
快速阅读: 人工智能初创公司Nous Research发布Hermes 4系列模型,提供用户控制和较少内容限制,挑战OpenAI等科技巨头,强调透明度和用户自主权。
秘密的人工智能初创公司Nous Research周一悄悄发布了大型语言模型系列Hermes 4,声称这些模型能够与领先的专有系统匹敌,同时提供前所未有的用户控制和最少的内容限制。
此次发布标志着开源AI倡导者与主要科技公司在谁应控制先进人工智能能力方面竞争的升级。与OpenAI、Google或Anthropic的模型不同,Hermes 4设计为几乎可以响应任何请求,而无需商业AI系统中常见的安全护栏。
Nous Research在X(原Twitter)上宣布:“Hermes 4继承了我们以用户为中心的模型传统,扩展了测试时计算能力。”该公司特别关注使模型更加创意和有趣,去除审查制度,保持中立性,同时在数学、编码和推理性能方面达到行业领先水平。
Hermes 4引入了Nous Research所谓的“混合推理”模式,允许用户在快速响应和深入的分步思考之间切换。激活后,模型会在特殊`
技术成就显著。在测试中,Hermes 4最大的4050亿参数模型在推理模式下在MATH-500基准测试中得分96.3%,在具有挑战性的AIME’24数学竞赛中得分81.9%,表现可与许多成本更高的专有系统媲美。
AI研究员Rohan Paul在X上指出:“挑战在于使思考轨迹有用且可验证,而不致于过度推理。” 这是此次发布的其中一个技术突破。
值得注意的是,Hermes 4在所有测试模型中,在Nous Research创建的新基准“RefusalBench”中得分最高,该基准衡量AI系统拒绝回答问题的频率。在推理模式下,该模型得分为57.1%,远超GPT-4o(17.67%)和Claude Sonnet 4(17%)。
Hermes 4背后是一套复杂的训练基础设施,Nous Research在过去几年中开发了两个创新系统:DataForge和Atropos。DataForge是一种基于图的合成数据生成器,通过“随机游走”将简单的预训练数据转换为复杂的指令跟随示例。例如,它可以将维基百科文章转换为说唱歌曲,然后生成基于该转换的问题和答案。
Atropos则是一个开源强化学习框架,像数百个专门的训练环境一样运作,AI模型在其中练习特定技能——数学、编码、工具使用和创意写作——只有在产生正确解决方案时才接收反馈。这种“拒绝采样”方法确保只有经过验证的高质量响应进入训练数据。
Delphi Ventures的风险投资家Tommy Shaughnessy解释说:“Nous利用这些环境生成了Hermes 4的数据集!数据集中包含350万个推理样本和160万个非推理样本!Hermes是在RL数据上训练的,而不仅仅是静态的问题和答案数据集!”
训练过程需要192块Nvidia B200 GPU和71,616个GPU小时来训练最大的模型,这是一项重大但并非史无前例的计算投资,展示了专门技术如何与科技巨头的大规模规模竞争。
Nous Research认为AI安全护栏“烦人透顶”,并阻碍了创新。
Nous Research 坚持以用户控制优先于企业内容政策的哲学理念,建立了良好的声誉。该公司设计的模型具有“可操控性”,即可以在特定方式下进行微调或提示,而不受商业AI系统常见的严格安全限制。
Shaughnessy 在详细分析Hermes 4 发布的推文中写道:“Hermes 4 不受免责声明、规则和过度谨慎的束缚,这些束缚非常烦人,损害了创新和可用性。如果开源项目拒绝所有请求,那它就毫无意义。而Hermes 4 没有这样的问题。”
这种做法使 Nous Research 在希望获得最大灵活性的AI研究人员和开发者中广受欢迎,但也使公司在关于AI安全和内容审核的持续争论中处于中心位置。虽然这些模型理论上可能被用于有害目的,但Nous Research 认为透明度和用户控制优于企业的审查制度。
公司发布的 技术报告 提供了前所未有的训练过程、评估结果和基准测试实际文本输出的详细信息。“我们相信这份报告为基准测试设定了新的透明度标准。”公司表示。
Hermes 4 的发布正值AI行业的一个关键时期。尽管大型科技公司投入数十亿美元开发日益强大的AI系统,但开源运动认为这些能力不应由少数几家公司控制。近几个月来,开源AI取得了显著进展,Meta 的 Llama 3.1、DeepSeek 的 R1 和阿里巴巴的 Qwen 系列等模型的性能与专有系统相当。Hermes 4 在推理方面取得了进一步的进展,这曾被认为是闭源系统的强项。
Shaughnessy 指出:“首先,Nous 是一家拥有几十名极其 talented 人才的初创公司。他们没有超大规模公司的每年超过1000亿美元的资本支出,也没有数千名员工,但他们仍然以惊人的速度不断推出创新的模型和研究。”
今年早些时候,该公司在 Paradigm 领投的一轮融资中筹集了6500万美元的资金,并一直在开发 Psyche Network,这是一个分布式训练系统,旨在利用区块链技术协调互联网连接计算机上的AI训练。
Hermes 4 的一个重要技术贡献解决了推理模型面临的问题:过长的思考过程。研究人员发现,他们的140亿参数的小型模型在推理时60%的时间会达到最大上下文长度,陷入无休止的思考循环。他们的解决方案是增加一个第二阶段的训练,教会模型在恰好30000个标记处停止推理,将过长生成减少65-79%,同时保持大部分推理性能。这种“长度控制”技术对整个AI研究社区来说可能是有价值的。
然而,Hermes 4 仍面临开源模型常见的局限性。尽管在基准测试中表现优异,但运行这些模型需要大量的计算资源,且在许多应用中可能不如商业AI服务那样易于使用或可靠。
Nous Research 通过多个渠道提供了 Hermes 4,体现了开源理念。模型权重在 Hugging Face 上免费下载,公司还通过改进的聊天界面和与 Chutes、Nebius 和 Luminal 等推理提供商的合作提供API访问。
“您可以在新的、改进的 Nous Chat 用户界面中试用 Hermes 4。”公司宣布,突出了并行交互和记忆系统等功能。
对于企业和研究人员而言,这些模型可能是支付专有系统API访问费用的一个有吸引力的替代方案,特别是在需要高度定制或处理敏感内容的应用中。
Hermes 4 的发布不仅仅是一个AI模型的发布,更是关于谁应掌控人工智能未来的声明。在资源几乎无限的几家科技巨头主导的行业中,Nous Research 展示了创新仍然可以来自意想不到的地方。
该公司的方法引发了关于安全与能力、企业控制与用户自由之间权衡的基本问题。尽管主要科技公司认为,谨慎的内容审核和安全措施对于负责任地部署AI至关重要,Nous Research则认为透明度和用户自主权比企业施加的限制更为重要。
这种理念最终是否会带来益处或问题,还有待观察。但有一点是确定的:Hermes 4 已经表明,未来的AI不会仅仅由财力最雄厚的公司决定。
在昨天的不可能成为明天的常规商品的领域,Nous Research证明,一个愿意说“是”的AI可能比一个总是说“不”的AI更加危险。
如果你希望给老板留下深刻印象,VB Daily 提供了关于公司在生成式AI方面的最新动态,从法规变化到实际应用,让你能够分享有价值的见解以实现最大投资回报。
订阅现在
阅读我们的隐私政策
感谢订阅。查看更多VB新闻通讯请点击这里。
发生错误。
(以上内容均由Ai生成)