AI 研究人员对 DeepSeek 进行测试

发布时间:2025年2月10日    来源:szf
AI 研究人员对 DeepSeek 进行测试

快速阅读: 据《AZoAI》称,卡内基梅隆大学和哈佛大学的研究人员测试了深寻(DeepSeek),评估其与顶级大型语言模型(LLM)的性能。结果显示,尽管在准确性上稍逊于克劳德(Claude),深寻在成本效益和分类性能方面表现出色,成为人工智能驱动文本分析领域的新竞争者。

乔尔·斯坎伦乔尔·斯坎伦2025年2月9日

卡内基梅隆大学和哈佛大学的研究人员对深寻(DeepSeek)进行了测试,以评估其与顶级大型语言模型(LLM)的性能。结果显示,尽管在准确性方面落后于克劳德(Claude),但深寻在其他方面表现出色,其成本效益和强大的分类性能使其成为人工智能驱动文本分析领域的一个新兴竞争者。

研究:深寻与其他LLM的对比

图片来源:Krot_Studio / Shutterstock

重要声明:arXiv发布的是未经同行评审的初步科学报告,因此不应被视为最终结论,也不应用于指导开发决策或作为人工智能研究领域的权威信息。

大型语言模型(LLM)的快速发展伴随着人工智能的重大突破。深寻在近几个月中崭露头角。自2025年1月20日最新版本发布以来,深寻引起了广泛关注,尤其是在分类任务中,它在与克劳德-3.5-sonnet、双子座(Gemini)和GPT-4o-mini等模型的竞争中表现出色。研究人员和行业专家都对评估深寻的能力产生了兴趣,特别是在预测文本分析方面。

这项由卡内基梅隆大学和哈佛大学的研究人员进行的研究,将深寻与四个广泛使用的LLM进行了比较:OpenAI的GPT-4o-mini、谷歌的双子座-1.5-flash、Meta的Llama-3.1-8b和克劳德-3.5-sonnet。作者专注于两个关键的分类任务:作者身份分类,即确定文本是否由人类或AI撰写;引用分类,即根据引用的重要性对学术引用进行分类。分析评估了模型的准确性、计算效率、成本以及输出相似性,以确定深寻与其竞争对手的表现。

作者身份分类

随着AI生成文本在各种数字平台上的普及,关于虚假信息和区分人类写作与AI输出的问题日益受到关注。本研究使用了一个名为MADStat的数据集,该数据集包含从1975年至2015年的统计学期刊中的83,331篇摘要。作者从该数据集中生成了三种类型的文本样本:

– 人类撰写的摘要(hum)——MADStat数据集中的未编辑摘要。
– AI生成的摘要(AI)——基于论文标题,由GPT-4o-mini生成的新摘要。
– AI编辑的人类摘要(humAI)——使用GPT-4o-mini修改的原始摘要。
– AI生成的摘要(AI)——基于论文标题,由GPT-4o-mini生成的新摘要。

作者在两个分类问题上评估了五个LLM。第一个(AC1)区分人类撰写和AI生成的文本,而第二个(AC2)则区分人类撰写的文本和AI编辑的版本。结果表明,克劳德-3.5-sonnet在AC1中实现了最高的分类准确率,而深寻-R1位列第二。然而,在AC2中,深寻的表现优于所有模型,使其成为检测AI编辑的人类文本最有效的工具。

有趣的是,这些模型在分类上的表现存在差异。深寻的预测与克劳德和双子座最为接近,而GPT和Llama虽然有很高的相似性,但在分类准确性上表现不佳。GPT和Llama在作者身份分类中的错误率几乎相当于随机猜测,这表明它们在检测AI生成内容方面存在显著弱点。

研究指出,尽管深寻表现优异,但其处理速度较慢仍是一个显著的不足。

引用分类

评估学术研究影响不仅需要考虑引用次数,引用的背景和意图在理解其重要性方面也起着关键作用。作者引入了一个新的数据集CitaStat,包含从统计学期刊中提取的3,000个手动标注的引用实例。引用被划分为四类:

– 核心思想(FI)——引用提供关键理论见解的工作。
– 技术基础(TB)——引用关键方法论或数据集。
– 背景(BG)——引用先前工作以提供背景或支持。
– 比较(CP)——引用用于比较分析的研究。

执行了两项分类任务。第一个(CC1)将引用分配到其中一类,而第二个(CC2)则简化为两类:重要(FI和TB)和非重要(BG和CP)。在CC1中,深寻排名第四,位于克劳德、双子座和GPT之后;而在CC2中,深寻表现突出,整体排名第二。排名与作者身份分类观察到的结果类似,深寻在双子座、GPT和Llama之上,但需要更多计算时间。

模型之间的协议也被分析,结果显示克劳德和双子座在分类上的一致性最高,而深寻的预测与克劳德和双子座最为一致。Llama在所有任务中的表现最差,其准确性往往接近随机猜测。

结果与贡献

研究表明,克劳德-3.5-sonnet始终提供最准确的分类,尽管成本显著更高。对于CC1和CC2的结合,克劳德的处理成本总计为12.30美元,而深寻、双子座和GPT每项任务的成本不超过0.30美元,使深寻成为一种成本效益较高的替代品,尽管其处理速度较慢。深寻表现出色,通常在准确性上排名第二,同时保持较低的成本。然而,其计算速度明显较慢,使得其在实时应用中不够实用。

这项研究在三个方面做出了贡献:

– 将深寻与已建立的LLM进行基准测试——比较提供了深寻的优势和劣势,突显其在预测任务中的潜力。
– 引入引用分类作为研究工具——基于重要性的引用分类开辟了评估学术影响的新途径。
– 提供公共数据集以进一步研究——CitaStat和MADStatAI数据集为评估AI生成文本和引用分类提供了有价值的基准,促进了人工智能研究的进一步发展。

讨论

本研究的发现表明,尽管深寻尚未超越克劳德,但它是一个具有竞争力的LLM,具有较强的分类准确性。深寻较低的训练成本表明它有改进的空间,通过进一步的优化,它可以缩小与更昂贵模型如克劳德的性能差距。其较低的成本使其成为一个有吸引力的替代选择,特别是在高准确性要求但计算效率不那么关键的情况下。这一成本优势可能使深寻特别适合大规模学术或企业应用,其中降低成本是优先事项。

未来的研究可以将此分析扩展到其他领域,如自然语言处理和计算机视觉,以进一步评估深寻的能力。此外,整合统计和机器学习技术来优化分类提示可能会提高准确性。例如,研究建议利用统计工具识别AI生成文本与人类生成文本之间的辨别语言模式,这可以提高不同数据集上的分类精度。本研究中引入的数据集可以作为正在进行的AI生成内容检测和引用分析研究的基础资源。

最终,这种比较凸显了LLM领域的演变,新进入者如深寻挑战行业领导者,并推动AI驱动文本分析的边界。尽管深寻仍有提升空间,但其快速发展和成本效率使其成为LLM领域内的强劲竞争者。

重要声明:arXiv发布的是未经同行评审的初步科学报告,因此不应被视为最终结论,也不应用于指导开发决策或作为人工智能研究领域的权威信息。

期刊参考:初步科学报告。

高,T.,金,J.,柯,Z.T.,&莫鲁塞夫,G.(2025)。深寻与其他LLM的比较。ArXiv。https://arxiv.org/abs/2502.03688

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日