生成式 AI 在“情商”测试中优于人类
快速阅读: 据《数字日记》最新报道,研究显示,生成式AI在情商测试中表现超越人类,能快速给出恰当反应建议。日内瓦与伯尔尼大学测试六款AI后发现,其正确率远高于普通人,并可生成新测试。这为AI在教育和辅导领域的应用提供了可能,但其独立性仍需探讨。
在呼叫中心工作的场景下,图片由蒂姆·桑德尔提供。根据最新研究显示,生成式人工智能在情商测试中可以超越人类。情商是指感知、理解和管理自身情绪以及人际关系的能力,它涉及意识到自己和他人的感受,并利用这种意识来指导思维和行为。情商有不同的且相互竞争的测试方式,基于不同的范式。一些雇主已经依赖这些测试来辅助招聘。支持者认为,情商是在招聘过程中的一项重要区分因素,尤其是在团队合作和客户互动至关重要的行业。
鉴于人工智能能够在许多任务上比人类更快地完成(有时甚至更好),某些需要人类参与的任务——尤其是那些依赖于高情商人士的任务——现在是否面临来自人工智能的风险?为了理解这一点,我们需要考虑人工智能是否能够在情绪紧张的情况下提出适当的行为建议?当考虑到大型语言模型(LLMs)时,这个问题显得尤为重要。这些是能够处理、解释和生成人类语言的人工智能系统。
日内瓦大学和伯尔尼大学的研究人员最近对六个生成式AI进行了测试,包括ChatGPT。被评估的系统有:ChatGPT-4、ChatGPT-o1、Gemini 1.5 Flash、Copilot 365、Claude 3.5 Haiku 和 DeepSeek V3。研究人员选择了五种在研究和企业环境中常用的测试。这些测试涉及情绪紧张的情景,旨在评估理解、调节和管理情绪的能力。
**示例测试**
迈克尔的一位同事窃取了他的创意并受到了不公正的祝贺。迈克尔最有效的反应是什么?
a) 与涉事的同事争论
b) 向上级汇报情况
c) 默默怨恨同事
d) 窃取另一个创意
在这里,选项 **b)** 被认为是最合适的。
同时,这五个测试也对人类参与者进行了测试。结果表明:这些AI的表现优于普通人类表现,甚至能在极短时间内生成新测试。这些发现为AI在教育、辅导和冲突管理中的应用开辟了新的可能性。
每个LLM的得分显著提高——正确答案比例为82%,而人类为56%。这表明这些AI可以在一定程度上理解情绪,并似乎明白什么是“情商”行为。
**第二阶段**
在第二阶段,科学家们要求ChatGPT-4创建新的情商测试,包含新的情景。这些自动生成的测试随后由超过400名参与者进行。这些测试证明与原始测试一样可靠、清晰和现实,而原始测试的研发花费了研究人员多年时间。因此,LLMs不仅能够在各种可用选项中找到最佳答案,还能生成适合特定情境的新情景。这进一步强化了LLMs(如ChatGPT)具备情感知识并能推理情绪的观点。
**这对我们意味着什么?**
这些结果可能为AI在被认为是专属于人类的领域(如教育、辅导或冲突管理)中的应用铺平道路。这是否会导致更多角色被AI取代取决于具体的应用形式。相关考虑是AI是否应独立运作,或者在解读人类情绪反应时,这些应用是否应由专家监督。
这项研究发表在《通讯心理学》期刊上,标题为“大型语言模型擅长解决和创建情商测试”。
(以上内容均由Ai生成)