AI 研究人员对 DeepSeek 进行测试

快速阅读: 据《AZoAI》称，卡内基梅隆大学和哈佛大学的研究人员测试了深寻（DeepSeek），评估其与顶级大型语言模型（LLM）的性能。结果显示，尽管在准确性上稍逊于克劳德（Claude），深寻在成本效益和分类性能方面表现出色，成为人工智能驱动文本分析领域的新竞争者。

乔尔·斯坎伦乔尔·斯坎伦2025年2月9日

卡内基梅隆大学和哈佛大学的研究人员对深寻（DeepSeek）进行了测试，以评估其与顶级大型语言模型（LLM）的性能。结果显示，尽管在准确性方面落后于克劳德（Claude），但深寻在其他方面表现出色，其成本效益和强大的分类性能使其成为人工智能驱动文本分析领域的一个新兴竞争者。

研究：深寻与其他LLM的对比

图片来源：Krot_Studio / Shutterstock

重要声明：arXiv发布的是未经同行评审的初步科学报告，因此不应被视为最终结论，也不应用于指导开发决策或作为人工智能研究领域的权威信息。

大型语言模型（LLM）的快速发展伴随着人工智能的重大突破。深寻在近几个月中崭露头角。自2025年1月20日最新版本发布以来，深寻引起了广泛关注，尤其是在分类任务中，它在与克劳德-3.5-sonnet、双子座（Gemini）和GPT-4o-mini等模型的竞争中表现出色。研究人员和行业专家都对评估深寻的能力产生了兴趣，特别是在预测文本分析方面。

这项由卡内基梅隆大学和哈佛大学的研究人员进行的研究，将深寻与四个广泛使用的LLM进行了比较：OpenAI的GPT-4o-mini、谷歌的双子座-1.5-flash、Meta的Llama-3.1-8b和克劳德-3.5-sonnet。作者专注于两个关键的分类任务：作者身份分类，即确定文本是否由人类或AI撰写；引用分类，即根据引用的重要性对学术引用进行分类。分析评估了模型的准确性、计算效率、成本以及输出相似性，以确定深寻与其竞争对手的表现。

作者身份分类

随着AI生成文本在各种数字平台上的普及，关于虚假信息和区分人类写作与AI输出的问题日益受到关注。本研究使用了一个名为MADStat的数据集，该数据集包含从1975年至2015年的统计学期刊中的83,331篇摘要。作者从该数据集中生成了三种类型的文本样本：

– 人类撰写的摘要（hum）——MADStat数据集中的未编辑摘要。
– AI生成的摘要（AI）——基于论文标题，由GPT-4o-mini生成的新摘要。
– AI编辑的人类摘要（humAI）——使用GPT-4o-mini修改的原始摘要。
– AI生成的摘要（AI）——基于论文标题，由GPT-4o-mini生成的新摘要。

作者在两个分类问题上评估了五个LLM。第一个（AC1）区分人类撰写和AI生成的文本，而第二个（AC2）则区分人类撰写的文本和AI编辑的版本。结果表明，克劳德-3.5-sonnet在AC1中实现了最高的分类准确率，而深寻-R1位列第二。然而，在AC2中，深寻的表现优于所有模型，使其成为检测AI编辑的人类文本最有效的工具。

有趣的是，这些模型在分类上的表现存在差异。深寻的预测与克劳德和双子座最为接近，而GPT和Llama虽然有很高的相似性，但在分类准确性上表现不佳。GPT和Llama在作者身份分类中的错误率几乎相当于随机猜测，这表明它们在检测AI生成内容方面存在显著弱点。

研究指出，尽管深寻表现优异，但其处理速度较慢仍是一个显著的不足。

引用分类

评估学术研究影响不仅需要考虑引用次数，引用的背景和意图在理解其重要性方面也起着关键作用。作者引入了一个新的数据集CitaStat，包含从统计学期刊中提取的3,000个手动标注的引用实例。引用被划分为四类：

– 核心思想（FI）——引用提供关键理论见解的工作。
– 技术基础（TB）——引用关键方法论或数据集。
– 背景（BG）——引用先前工作以提供背景或支持。
– 比较（CP）——引用用于比较分析的研究。

执行了两项分类任务。第一个（CC1）将引用分配到其中一类，而第二个（CC2）则简化为两类：重要（FI和TB）和非重要（BG和CP）。在CC1中，深寻排名第四，位于克劳德、双子座和GPT之后；而在CC2中，深寻表现突出，整体排名第二。排名与作者身份分类观察到的结果类似，深寻在双子座、GPT和Llama之上，但需要更多计算时间。

模型之间的协议也被分析，结果显示克劳德和双子座在分类上的一致性最高，而深寻的预测与克劳德和双子座最为一致。Llama在所有任务中的表现最差，其准确性往往接近随机猜测。

结果与贡献

研究表明，克劳德-3.5-sonnet始终提供最准确的分类，尽管成本显著更高。对于CC1和CC2的结合，克劳德的处理成本总计为12.30美元，而深寻、双子座和GPT每项任务的成本不超过0.30美元，使深寻成为一种成本效益较高的替代品，尽管其处理速度较慢。深寻表现出色，通常在准确性上排名第二，同时保持较低的成本。然而，其计算速度明显较慢，使得其在实时应用中不够实用。

这项研究在三个方面做出了贡献：

– 将深寻与已建立的LLM进行基准测试——比较提供了深寻的优势和劣势，突显其在预测任务中的潜力。
– 引入引用分类作为研究工具——基于重要性的引用分类开辟了评估学术影响的新途径。
– 提供公共数据集以进一步研究——CitaStat和MADStatAI数据集为评估AI生成文本和引用分类提供了有价值的基准，促进了人工智能研究的进一步发展。

讨论

本研究的发现表明，尽管深寻尚未超越克劳德，但它是一个具有竞争力的LLM，具有较强的分类准确性。深寻较低的训练成本表明它有改进的空间，通过进一步的优化，它可以缩小与更昂贵模型如克劳德的性能差距。其较低的成本使其成为一个有吸引力的替代选择，特别是在高准确性要求但计算效率不那么关键的情况下。这一成本优势可能使深寻特别适合大规模学术或企业应用，其中降低成本是优先事项。

未来的研究可以将此分析扩展到其他领域，如自然语言处理和计算机视觉，以进一步评估深寻的能力。此外，整合统计和机器学习技术来优化分类提示可能会提高准确性。例如，研究建议利用统计工具识别AI生成文本与人类生成文本之间的辨别语言模式，这可以提高不同数据集上的分类精度。本研究中引入的数据集可以作为正在进行的AI生成内容检测和引用分析研究的基础资源。

最终，这种比较凸显了LLM领域的演变，新进入者如深寻挑战行业领导者，并推动AI驱动文本分析的边界。尽管深寻仍有提升空间，但其快速发展和成本效率使其成为LLM领域内的强劲竞争者。

重要声明：arXiv发布的是未经同行评审的初步科学报告，因此不应被视为最终结论，也不应用于指导开发决策或作为人工智能研究领域的权威信息。

期刊参考：初步科学报告。

高，T.，金，J.，柯，Z.T.，&莫鲁塞夫，G.（2025）。深寻与其他LLM的比较。ArXiv。https://arxiv.org/abs/2502.03688

(以上内容均由Ai生成)