美团LongCat推出UNO-Bench,全面提升多模态模型评估能力

发布时间:2025年11月6日    来源:szf
美团LongCat推出UNO-Bench,全面提升多模态模型评估能力

快速阅读: 美团LongCat团队推出UNO-Bench基准测试,涵盖44种任务类型和5种模态组合,数据集跨模态可解性达98%,运行速度提升90%,并引入多步骤开放式问题评估模型复杂推理能力。

近日,美团LongCat团队推出名为UNO-Bench的新基准测试,旨在系统评估各类模型在不同模态下的理解能力。该基准测试涵盖44种任务类型和5种模态组合,力求全面展示模型在单模态与全模态下的性能。

UNO-Bench的核心优势在于其丰富且高质量的数据集。团队精选了1250个全模态样本,这些样本的跨模态可解性达到98%。此外,还加入了2480个增强的单模态样本,这些样本充分考虑了实际应用场景,尤其在中文环境中表现出色。值得注意的是,经过自动压缩处理后,数据集的运行速度提升了90%,并在18个公开基准测试中保持了98%的一致性。

为了更好地评估模型的复杂推理能力,UNO-Bench引入了一种创新的多步骤开放式问题形式。该形式结合通用评分模型,能够自动评估六种不同题型,准确率达到95%。这一创新评估方式为多模态模型的评测提供了新思路。

目前,UNO-Bench主要关注中文场景,团队正积极寻找合作伙伴,计划共同开发英语及其他多语言版本。感兴趣的开发者可通过Hugging Face平台下载UNO-Bench数据集,相关代码和项目文档已在GitHub上公开。

随着UNO-Bench的发布,多模态大语言模型的评估标准将进一步提升,不仅为研究人员提供有力工具,也为整个行业的发展铺平了道路。项目地址:https://meituan-longcat.github.io/UNO-Bench/

(以上内容均由Ai生成)

你可能还想读

Orca AI推出协同船长系统,实现实时数据共享优化航行

Orca AI推出协同船长系统,实现实时数据共享优化航行

快速阅读: Orca AI系统将1000多艘船连接成传感器网络,实时分享天气、交通和监管信息,形成集体智能,提升航运安全和效率,减少延误和燃料消耗,数据完全匿名处理。 通过连接日益增长的1000艘安装了Orca AI系统的船只(图示),以及 […]

发布时间:2025年11月6日
新加坡将用AI审查幼儿园监控,提升调查效率

新加坡将用AI审查幼儿园监控,提升调查效率

快速阅读: 新加坡社会及家庭发展部长马善高宣布,自2024年7月起,所有学前教育机构须安装CCTV摄像头,并与AI技术结合,以提高安全监控效能。ECDA正开发AI解决方案,支持识别安全风险和不当行为,同时强调经营者需配合调查,违者将受罚。 […]

发布时间:2025年11月6日
乌克兰统计局推出AI助手,加速数据搜索

乌克兰统计局推出AI助手,加速数据搜索

快速阅读: 乌克兰国家统计局推出新在线平台及西格玛系统,加速数据处理与分析,助力欧洲一体化,采用行政数据替代传统调查,优化统计生产,提高数据可访问性。 乌克兰国家统计局正式推出了一款新在线平台,该平台配备有人工智能助手,旨在加速数据搜索。国 […]

发布时间:2025年11月6日
人工智能助力医学诊断,提升疾病早期发现能力

人工智能助力医学诊断,提升疾病早期发现能力

快速阅读: 新AI技术在适当监管下展现巨大潜力,如医学影像诊断和帕金森病早期检测,亨利·米勒近期在美国科学健康委员会对此进行了综述。 然而,我们已经知道,适当监管下的新AI技术可以带来巨大好处。其中一个例子是AI在医学影像诊断中的应用,例如 […]

发布时间:2025年11月6日
AI重塑风险检测,助力合规管理智能化

AI重塑风险检测,助力合规管理智能化

快速阅读: 企业扩张速度远超监管跟进,合规团队面临风险管理挑战。传统模式难以应对数字经济需求,AI驱动的风险检测系统成为解决方案,实现自动化数据扫描、模式识别、持续监控和智能警报。 在企业扩张速度远超监管跟进的时代,合规团队面临着持续的风险 […]

发布时间:2025年11月6日
尼日利亚启动AI技能培训,提升公共服务效率

尼日利亚启动AI技能培训,提升公共服务效率

快速阅读: 尼日利亚通信创新与数字经济部长博孙·蒂贾尼博士表示,正确部署人工智能将促进生产并节省公共服务时间。谷歌与Apolitical合作培训公务员,支持数字转型,提高服务效率。 通讯创新与数字经济部长博孙·蒂贾尼博士表示,如果正确部署, […]

发布时间:2025年11月6日
英伟达CEO黄仁勋:中国将赢得AI竞赛

英伟达CEO黄仁勋:中国将赢得AI竞赛

快速阅读: 英伟达CEO黄仁勋表示中国在人工智能竞赛中领先,因监管宽松和低能源成本。他批评美国缺乏统一指导方针,警告50州各自立法将产生混乱。黄还指出中国科技公司正用国产芯片替代英伟达产品,中美竞争激烈。 美国科技公司英伟达的首席执行官黄仁 […]

发布时间:2025年11月6日
Tinder新AI功能扫描相册提升匹配质量

Tinder新AI功能扫描相册提升匹配质量

快速阅读: Match Group 引入人工智能功能,包括浏览用户照片,以提升 Tinder 使用体验,尽管此举可能引发隐私担忧,但仍旨在增加用户活跃度,应对付费订阅用户连续两年下降的挑战。 给予应用程序的人工智能自由权限浏览设备上的照片, […]

发布时间:2025年11月6日