谷歌Gemini 3 Pro在事实准确性测试中仅达69%

发布时间:2025年12月15日    来源:szf
谷歌Gemini 3 Pro在事实准确性测试中仅达69%

快速阅读: 据谷歌消息,其旗下DeepMind发布FACTS基准测试套件,评估AI模型事实准确性。结果显示Gemini 3 Pro以69%准确率领先,但该水平在新闻、法律等高风险领域仍显不足,凸显AI幻觉问题亟待解决。

近日,谷歌旗下DeepMind发布了FACTS基准测试套件,用于评估人工智能模型在生成事实性答案方面的可靠性。该测试涵盖四个维度:基于内部知识回答事实类问题、有效利用网络搜索、在长文档中准确提取信息,以及对图像内容的正确解读。

测试结果显示,表现最优的谷歌Gemini 3 Pro模型准确率为69%,其他主流模型得分均明显低于这一水平。值得注意的是,在对事实准确性要求较高的专业领域,这一误差率仍显突出。例如,在新闻行业,若记者稿件仅有69%的事实准确率,通常难以满足职业标准。

此外,企业在推进AI应用时也需警惕此类风险。尽管当前模型在响应速度与语言流畅度方面进步显著,但在涉及专业知识、复杂推理或需严格依据原始材料的任务中,其事实可靠性仍远未达到人类预期。尤其在金融、医疗和法律等高风险领域,微小的事实错误可能引发严重后果。

本周有报道披露,一家律师事务所因员工使用ChatGPT生成包含虚构判例的法律文件而将其解雇,凸显了AI幻觉问题在实务操作中的现实危害。FACTS基准不仅揭示了当前模型的局限,也为技术改进提供了明确方向。通过量化模型在不同场景下的失误类型,研发机构有望加速提升其准确性。

目前来看,尽管人工智能持续演进,但在约三分之一的情况下仍会输出错误信息,用户在关键决策中应保持审慎。

(以上内容均由Ai生成)

你可能还想读

日经指数跌1% AI股领跌

日经指数跌1% AI股领跌

快速阅读: 12月16日消息,受AI板块回调影响,日经225指数下跌1.3%,失守50,000点,安川电机与古河电工领跌。市场观望美国非农数据及日本央行会议,多数个股与行业板块收跌。 周二,受人工智能相关板块回调影响,日本股市日经225指数 […]

发布时间:2025年12月16日
印度AI初创企业面临生存危机

印度AI初创企业面临生存危机

快速阅读: 据印度竞争委员会消息,其最新调查显示,76%的印度AI初创企业依赖第三方大模型接口,缺乏自有技术护城河,导致2025年超1.1万家初创企业关闭,同比激增30%。专家提出“NEEV”评估框架,强调融合本土人才、行业知识与数据资源方 […]

发布时间:2025年12月16日
AI数字孪生提升职场决策与情商

AI数字孪生提升职场决策与情商

快速阅读: 媒体注意到,AI数字孪生体正应用于客服、销售等岗位,通过识别情绪、推荐回应并提供改进建议,以增强人类的决策与情感交互能力,而非取代人力。该技术已在实际场景中提升从业者的信心与行为一致性。 人工智能数字孪生体并非在后台运行的无名算 […]

发布时间:2025年12月16日
零售业遭AI驱动网络犯罪围攻

零售业遭AI驱动网络犯罪围攻

快速阅读: 记者获悉,受上半年多起重大网络攻击及AI滥用影响,英国零售业在2025年“黄金购物季”面临严峻安全威胁。专家指出,攻击者利用社交工程与深度伪造技术实施精准渗透,潜伏期缩短,呼吁企业强化身份认证、加密措施及员工安全培训,以保障业务 […]

发布时间:2025年12月16日
迪士尼与OpenAI达成角色授权合作

迪士尼与OpenAI达成角色授权合作

快速阅读: 据迪士尼消息,该公司与OpenAI达成战略合作,投资10亿美元获得Sora平台优先使用权,并授权旗下200多个角色用于粉丝创作短视频。此次合作系好莱坞首次大规模AI合作,以提升制作与营销效率,同时规避肖像权争议。 迪士尼近日宣布 […]

发布时间:2025年12月16日
Studio Lab用AI与机器人重塑电商内容体验

Studio Lab用AI与机器人重塑电商内容体验

快速阅读: 据首尔产业振兴院消息,韩国初创企业Studio Lab推出AI驱动的Gency电商内容自动化平台,整合拍摄机器人与生成式AI,可在30秒内完成商品页制作,显著提升中小商户数字化效率,并计划于2026年进军美日市场。 受全球电商市 […]

发布时间:2025年12月16日
斐济喜来登酒店推出AI虚拟礼宾Koko

斐济喜来登酒店推出AI虚拟礼宾Koko

快速阅读: 据业内消息,斐济喜来登高尔夫海滩度假村近日上线AI虚拟礼宾“Koko”,宾客扫码即可查询圣诞活动、预订餐厅并获取实时信息,此举每年可减少纸张消耗,相当于保护50棵树,同时提升服务效率与互动体验。 斐济喜来登高尔夫海滩度假村近日推 […]

发布时间:2025年12月16日
品牌从禁用转向强制使用生成式AI

品牌从禁用转向强制使用生成式AI

快速阅读: 据机构披露,生成式AI在营销领域的应用不断扩大,但面临商标稀释与版权侵权风险;企业多将其输出作为创作起点,并通过私有化部署或授权协议降低法律不确定性。 近日,生成式人工智能在营销领域的应用日益广泛,其法律边界问题引发关注。法律界 […]

发布时间:2025年12月16日