民调机构用AI替代真人调查,结果不如预期
快速阅读: 数据记者G. Elliott Morris研究发现,AI在政治民调中表现不佳,与真实受访者相差最多23个百分点,尤其在代表少数群体时误差更大,但一些公司仍可能继续使用AI以降低成本。
政治民调机构现在开始用人工智能代替真实人群进行调查,以降低成本和节省时间。然而,最新研究表明,AI在反映人类观点方面表现不佳,但一些已经采用这种技术的公司可能会继续使用。
数据记者G. Elliott Morris在Verasight调查平台发布的白皮书中指出,当比较1500名“合成”受访者与1500名真实受访者的回答时,大型语言模型(LLM)总体上非常不擅长反映实际人类的观点。
Morris使用六种OpenAI模型——GPT-4.1、GPT-4.1 nano、GPT-4.1 mini、GPT-4o、GPT-4o mini和o4-mini,指示每个模型以不同的人口统计特征回应问题。例如,他让模型模拟一位年收入5万至7.5万美元、自认为是温和选民的61岁佛罗里达州白人女性。
通过典型的政治民调问题,如“你是否赞成唐纳德·特朗普总统的工作表现?”并提供从“强烈赞同”到“强烈反对”的五级评分选项,研究结果显示,最差的模型与真实受访者相差23个百分点,而表现最好的GPT-4o-mini也相差4个百分点。
进一步分析发现,当模型被要求代表美国人口中较少见的群体,如黑人、亚裔和太平洋岛民时,误差更大。例如,对于特朗普的支持率,实际黑人选民与GPT-4o-mini预测的数据相差15个百分点,AI显著高估了这一群体对特朗普的不满。
Morris表示:“我们的‘合成样本’性能太差,无法用于所有研究问题。计算总体人口比例时,上述方法产生的误差至少有几个百分点,这在学术、政治和大多数市场研究环境中都是不可接受的。”他还补充说:“合成样本在子群体层面产生的误差如此之高,我们完全不信任它们能代表关键人群。”
尽管这些结果并不令人意外,但仍与近期推动在政治民调中使用AI生成数据的趋势相悖。一家名为Aaru的AI民调初创公司在去年11月总统选举后表示,即使其预测卡玛拉·哈里斯会赢得选举,但其方法仍优于传统民调。
Aaru联合创始人Cameron Fink在接受Semafor采访时称:“硬币抛出的结果是一样的。53-47与48-52没有显著差异。从统计学角度看,我们在误差范围内——所以我们的表现很好。”
这种态度或许能让某些政治竞选团队雇用他们,但对于试图赢得选民的候选人来说,这并不会带来多少帮助。
(以上内容均由Ai生成)