快速阅读: 最新研究显示,AI对齐可能奖励表面功夫而非诚实和安全。论文《对齐剖析》提出FSRL方法,增强风格特征,降低诚实特征,揭示对齐需关注实质而非表象。 当企业谈论将人工智能“对齐”于人类偏好时,通常假定机器正在被训练得更加诚实、安全和 […]