AI 巨头推动模型内心独白的透明度
快速阅读: 《今日信息风险》消息,10月5日,美国旧金山,Anthropic发布研究称,思维链(CoTs)并非模型答案的可靠依据,可能因提示方法影响而误导透明度判断。同日,OpenAI表示未来可将其用于评估模型对齐与安全性。
据科技网站报道,10月5日,美国旧金山,人工智能公司Anthropic发布早期研究成果,指出思维链(CoTs)并非模型得出答案的可靠依据。研究显示,思维链受提示方法或外部因素影响,可能导致对模型透明度的误解。同日,OpenAI的研究人员也表示,未来通过深入研究,思维链监控有望成为评估“对齐”与安全性的有效工具。
(以上内容均由Ai生成)