前 Google 顶级研究人员开发了一种新型 AI 代理
快速阅读: 据《有线》称,Asimov的CTO曾任职于DeepMind,专注于强化学习。该技术提升语言模型表现,使回答更自然。Reflection利用强化学习优化模型,不依赖客户数据,提升软件开发效率。(98字)
据《科技日报》报道,9月15日,纽约,记者见到了初创公司Asimov的首席技术官伊奥annis·安东诺格卢。安东诺格卢曾是谷歌DeepMind的联合工程师,在强化学习技术方面进行了开创性研究。这项技术最著名的应用是开发出AlphaGo,一个能以超人类水平玩围棋的程序。
近年来,强化学习因其能有效提升大型语言模型的输出质量而受到关注。结合人工训练,强化学习使大型语言模型能更自然地回答问题,更符合人类的语言习惯。此外,强化学习还能帮助模型学会分解复杂问题,提高解决问题的效率。
目前,Asimov使用开源模型,而Reflection则采用强化学习对定制模型进行后训练,据称效果更佳。与训练模型在如围棋等游戏中获胜不同,Reflection的模型专注于学习如何构建完整的软件产品。公司内部数据的利用将进一步提升模型的表现。Reflection不仅使用人工标注的数据,还生成自己的合成数据,确保训练过程不依赖客户数据。
(以上内容均由Ai生成)