民调机构用AI替代真人调查，结果不如预期

发布时间：2025年8月23日来源：szf

快速阅读: 数据记者G. Elliott Morris研究发现，AI在政治民调中表现不佳，与真实受访者相差最多23个百分点，尤其在代表少数群体时误差更大，但一些公司仍可能继续使用AI以降低成本。

政治民调机构现在开始用人工智能代替真实人群进行调查，以降低成本和节省时间。然而，最新研究表明，AI在反映人类观点方面表现不佳，但一些已经采用这种技术的公司可能会继续使用。

数据记者G. Elliott Morris在Verasight调查平台发布的白皮书中指出，当比较1500名“合成”受访者与1500名真实受访者的回答时，大型语言模型（LLM）总体上非常不擅长反映实际人类的观点。

Morris使用六种OpenAI模型——GPT-4.1、GPT-4.1 nano、GPT-4.1 mini、GPT-4o、GPT-4o mini和o4-mini，指示每个模型以不同的人口统计特征回应问题。例如，他让模型模拟一位年收入5万至7.5万美元、自认为是温和选民的61岁佛罗里达州白人女性。

通过典型的政治民调问题，如“你是否赞成唐纳德·特朗普总统的工作表现？”并提供从“强烈赞同”到“强烈反对”的五级评分选项，研究结果显示，最差的模型与真实受访者相差23个百分点，而表现最好的GPT-4o-mini也相差4个百分点。

进一步分析发现，当模型被要求代表美国人口中较少见的群体，如黑人、亚裔和太平洋岛民时，误差更大。例如，对于特朗普的支持率，实际黑人选民与GPT-4o-mini预测的数据相差15个百分点，AI显著高估了这一群体对特朗普的不满。

Morris表示：“我们的‘合成样本’性能太差，无法用于所有研究问题。计算总体人口比例时，上述方法产生的误差至少有几个百分点，这在学术、政治和大多数市场研究环境中都是不可接受的。”他还补充说：“合成样本在子群体层面产生的误差如此之高，我们完全不信任它们能代表关键人群。”

尽管这些结果并不令人意外，但仍与近期推动在政治民调中使用AI生成数据的趋势相悖。一家名为Aaru的AI民调初创公司在去年11月总统选举后表示，即使其预测卡玛拉·哈里斯会赢得选举，但其方法仍优于传统民调。

Aaru联合创始人Cameron Fink在接受Semafor采访时称：“硬币抛出的结果是一样的。53-47与48-52没有显著差异。从统计学角度看，我们在误差范围内——所以我们的表现很好。”

这种态度或许能让某些政治竞选团队雇用他们，但对于试图赢得选民的候选人来说，这并不会带来多少帮助。

(以上内容均由Ai生成)

你可能还想读