DeepSeek 引入了增强大型语言模型推理能力的新方法

发布时间：2025年4月6日来源：szf

快速阅读: 据《阿纳多卢代理》最新报道，中国AI初创公司深度求索推出新方法提升大型语言模型推理能力，据称超越现有技术。该公司与清华大学合作开发了融合生成式奖励建模和自我原则批评优化的双技术方案。研究者表示，新模型表现优异且稳健，计划开源但未定具体时间。这一成果在外界对该公司未来发展兴趣增加时发布。

伊斯坦布尔的中国人工智能初创公司深度求索（深兰探求）推出了一种提升大型语言模型（LLMs）推理能力的新方法，据报道已超越现有技术。根据《南华早报》周日的报道，深度求索与清华大学的研究人员共同开发了一项融合生成式奖励建模（GRM）和自我原则批评优化的双技术方案。该论文指出，此方法旨在使LLMs能更精准、高效地回应通用查询。研究者称，由此诞生的深度求索-GRM模型表现优异，展现了“极具竞争力的表现”，与先进的公开奖励模型相比也十分稳健。

奖励建模是用于调整大型语言模型行为以符合人类偏好的过程。研究团队透露，深度求索计划将其GRM模型开源发布，但尚未公布具体时间表。这篇刊登于在线科学存储库arXiv的论文，在外界对公司未来发展的兴趣逐渐增加，尤其是其V3基础模型和R1推理模型受到广泛关注后发布。

阿纳多卢通讯社网站仅提供安纳多卢新闻广播系统（HAS）部分供订阅用户阅读的内容，并以简要形式呈现。如需订阅选项，请联系我们。

(以上内容均由Ai生成)