AI公司重噱头轻实质，CEO警示行业乱象

发布时间：2025年12月8日来源：szf

快速阅读: 据最新消息，Surge AI创始人埃德温·陈批评AI行业过度追求表面效果，忽视攻克癌症等重大命题，并指出主流评测机制存在偏差，迎合短期偏好而非真实价值，欧盟报告及多家机构亦质疑当前基准测试的科学性与公正性。

日前，人工智能训练数据平台Surge AI创始人兼首席执行官埃德温·陈在播客节目中批评当前AI行业过度追求表面效果，忽视实质性突破。他指出，业界正将大量资源用于优化“AI垃圾内容”，而非聚焦于攻克癌症、消除贫困、探索宇宙等关乎人类发展的重大命题。

陈表示，当前主流AI模型评测机制存在严重偏差。他以热门在线排行榜LMArena为例，称用户往往仅凭两秒浏览便选择“看起来最炫”的回答，而非基于事实准确性或逻辑深度进行判断。“这本质上是在训练模型追逐多巴胺，而非真理，”他强调，并形容此类优化目标“如同迎合超市里购买八卦小报的消费者”。

作为曾任职于推特、谷歌和Meta的资深从业者，陈于2020年创立Surge AI，其旗下数据标注平台雇佣超百万自由职业者为AI模型提供训练支持，客户包括Anthropic等知名机构。他坦言，尽管排行榜评价方式不尽科学，但企业仍不得不关注排名，因其常成为销售会议中的关键议题。

这一观点得到部分研究者的呼应。今年3月，AI安全公司ZeroPath联合创始人迪恩·瓦伦丁指出，自2024年6月Anthropic发布Claude 3.5 Sonnet以来，多数宣称“性能提升”的新模型在其内部测试中并未显著增强漏洞检测能力，仅在交互趣味性上略有改善，缺乏实际经济价值。

此外，欧盟委员会联合研究中心今年2月发布的研究报告《我们能信任AI基准测试吗？》亦警示，当前评测体系深受商业竞争与文化偏好影响，过度强调“最先进性能”，却忽视社会整体利益。今年4月，Meta被指在Llama系列模型评测中“定制化”提交版本以提升排名，遭LMArena公开质疑其未充分披露测试条件，凸显行业评测标准亟待规范。

(以上内容均由Ai生成)