LMArena提出解决方案，AI医疗模型普遍表现不佳

发布时间：2025年8月20日来源：szf

快速阅读: LMArena与DataTecnica合作测试大型语言模型的医学知识，发现现有模型无法满足生物医学研究需求，计划通过BiomedArena平台改进模型性能，提升医学领域的准确性和安全性。

LMArena 和 DataTecnica 计划严格测试大型语言模型（LLM）的医学知识。尽管学术文献中提到许多医学领域的人工智能进展，但最新报告显示，所有生成式人工智能程序在处理医学主题时，都无法提供安全且准确的输出。

人们越来越依赖像 ChatGPT 这样的聊天机器人来获取医疗建议，而研究表明，即使这些机器人的建议错误，人们仍然信任它们超过医生。这项新研究比较了 OpenAI 的 GPT-5 与谷歌、Anthropic 和 Meta 的多个模型，发现“在实际生物医学研究中的表现远未达到满意水平”。

LMArena 团队指出：“当前没有一个模型能够可靠地满足生物医学科学家的推理和领域特定知识需求。” 报告认为，现有模型过于宽松和模糊，无法达到医学标准。这项研究与其他医学相关基准测试的结果一致，例如，今年5月，OpenAI 发布了 HealthBench，一套关于医疗情况和条件的文本提示，这些提示可能由寻求医疗建议的人提交给聊天机器人。结果显示，OpenAI 的 o3 大型语言模型的最佳准确率为 0.598，仍有很大的提升空间。

为了弥补人工智能模型与医学之间的差距，LMArena 与初创公司 DataTecnica 合作，后者在今年早些时候推出了名为 CARDBiomedBench 的基准测试套件，用于评估生成式人工智能在生物医学研究中的表现。双方计划扩展 BiomedArena，这是一个排行榜，让人们可以并排比较人工智能模型，并投票选出表现最佳的模型。

BiomedArena 专注于医学研究，而非一般性问题，旨在解决从解释实验数据和文献到辅助假设生成和临床转化的日常生物医学发现任务。目前，美国国立卫生研究院内部研究项目的科学家们已经在使用 BiomedArena 进行高风险、高回报的研究项目。

LMArena.ai 由加州大学伯克利分校发起，最初名为 Chatbot Arena，现已发展成为一个完整的平台，获得了加州大学伯克利分校、a16z、红杉资本等机构的资金支持。

然而，这项新的基准测试努力面临两个主要问题。首先，研究表明，当大型语言模型连接到“黄金标准”医疗数据库时，其实用性显著提高，专用大型语言模型可以通过访问信息超越顶级前沿模型。其次，不断有专门针对医学的大型语言模型开发出来，例如谷歌两年前推出的“MedPaLM”计划。目前尚不清楚 BiomedArena 是否会考虑这些专门的医学大型语言模型。到目前为止，该工作仅测试了一般前沿模型。

LMArena 和 DataTecnica 作出的选择是合理的，但这确实忽略了大量重要的工作。

人工智能

使用 AI 编码？我列出五大检验输出的方法，避免麻烦

2025年最佳编码 AI（以及哪些不建议使用）

我发现五款 AI 内容检测器，能够100%准确识别 AI 文本

我是 AI 工具专家，只付费使用这两款（还有三款正在考虑）

使用 AI 编码？我列出五大检验输出的方法，避免麻烦

2025年最佳编码 AI（以及哪些不建议使用）

我发现五款 AI 内容检测器，能够100%准确识别 AI 文本

我是 AI 工具专家，只付费使用这两款（还有三款正在考虑）

(以上内容均由Ai生成)