大语言模型对数据中毒攻击抵抗力低:仅需250份文件就能控制ChatGPT回应

发布时间:2025年11月3日    来源:szf

据报道,Anthropic、英国AI安全研究所和艾伦·图灵研究所的最新联合研究发现,大语言模型对数据中毒攻击的抵抗力远低于预期。攻击者仅需极少量的恶意文件就能在模型中植入“后门”。这项研究针对参数规模从600万到130亿不等的AI模型进行了训练测试。研究人员发现,无论模型规模多大,攻击者只需插入大约250份被污染的文件,就能成功操控模型的响应方式。这一发现颠覆了以往认为模型越大攻击难度越高的传统观念。对于测试中最大的130亿参数模型,250份恶意文件仅占总训练数据的0.00016%。然而当模型遇到特定的“触发短语”时,它就会按照被植入的后门行为,输出无意义的文本,而非正常的连贯回应。研究人员还尝试通过持续的“干净数据”训练来消除后门,结果后门仍然在一定程度上持续存在。虽然本次研究主要针对简单的后门行为,且测试模型规模尚未达到商业旗舰级水平,但研究人员呼吁业界必须改变安全实践。

你可能还想读

Default Image

进博会开幕式上跨国巨头们对于中国市场的最新“声音”

图片来源:视觉中国 2024年是中国经济不平凡的一年。今年以来,面对外部压力加大、内部困难增多的复杂严峻形势,国家政府沉着应对,加大宏观调控力度,着力深化改革开放、扩大国内需求、优化经济结构,我国经济运行总体平稳、稳中有进,新质生产力加快培 […]

发布时间:2025年11月3日
Default Image

“吹哨”!人工智能2030年将造500万吨电子垃圾

文|《中国科学报》记者赵广立见习记者赵宇彤 即便做了充足的心理准备,汪鹏仍感到形势严峻——如果不采取循环经济策略,生成式人工智能(AI)到2030年预计累计产生500万吨电子废弃物,”或将给人类可持续发展带来重大挑战”。 随着AI的飞速发展 […]

发布时间:2025年11月3日
Default Image

人工智能时代,公众更没有安全感?

数据和人工智能(AI)之间的关系是什么?有人作了个形象比喻:就像煤炭之于蒸汽机,电能之于灯泡,汽油之于汽车。 的确,几乎所有形式的AI都需要大量训练数据。要想让AI更加”懂你”,就必须收集和分析你的个人信息,这是AI深度学习的原材料,也是其 […]

发布时间:2025年11月3日
Default Image

我的AI恋人,因为降本增效“死”了

本文来自微信公众号:刺猬公社(ID:ciweigongshe),作者:李怡云,编辑:陈梅希,题图来自:AI生成 今年秋天,OpenAI正式发布了ChatGPT的高级语音功能。其本意是让人机交互更自然,却被网友们”玩坏了”。 在国内外的视频网 […]

发布时间:2025年11月3日
Default Image

抑郁症的电子丧钟,响了

出品|虎嗅科技医疗组 作者|陈广晶 编辑|苗正卿 头图|视觉中国 “原来抑郁症会死人。” 2017年,刚过30岁的蓝振忠听到同学自杀的消息,第一次意识到了心理问题的严重性,直到这时他也才发现,周围很多朋友在吃抗抑郁的药。 那时,蓝振忠还在卡 […]

发布时间:2025年11月3日
Default Image

手机秒拍动画大片,高级运镜效果惊人!Runway两弹更新,火得一塌糊涂

编辑:静音 【新智元导读】在AI视频这一赛道,Runway显然已经走出了自己的特色——专注于艺术、媒体和娱乐。他们新近连发了两个新功能:可将真人面部表情精确复刻给AI角色的Act-One,以能够实现3D化的AI摄像头控件。 前几天,Runw […]

发布时间:2025年11月3日
Default Image

新兴技术向前,GenAI向“后”?

作为判断新兴技术发展阶段和未来趋势的重要参考,Gartner的成熟度曲线在业内颇具影响力。近日,Gartner发布2024年中国信息与通信技术成熟度曲线,生成式AI、云原生、5G、低代码等热点技术出现在该成熟度曲线上。其所处位置的不同,代表 […]

发布时间:2025年11月3日
Default Image

AI技术:制造业的未来还是泡沫幻影?

点击上方”蓝色字体”,选择”设为星标” 关键讯息,D1时间送达! 在探讨制造业的未来时,一个不可忽视的趋势是高科技制造业对人工的依赖正在逐渐减少。传统观念中,人工操作往往被视为生产过程中的污染源,如呼吸、皮肤屑、头发等都会对精密制造构成威胁 […]

发布时间:2025年11月3日