海外AI模型在韩国高考数学测试中领先

发布时间:2025年12月16日    来源:szf
海外AI模型在韩国高考数学测试中领先

快速阅读: 据科技和ICT部方面消息,韩国国产AI大模型在高丽大学主导的数学能力测评中显著落后于国际主流系统,主要原因是科学训练数据不足。部长裵京勋12月16日表示,将聚焦构建领域专用数据集,并优先发展可部署的轻量级模型。

韩国自主研发的人工智能大模型在近期一项学术能力测试中明显落后于国际领先系统。此次评估由高丽大学数学系教授金俊洛克领衔的研究团队开展,旨在回应社会对国产“主权AI”模型缺乏公开测评的关切。

研究团队选取10个大型语言模型,要求其解答50道高难度数学题。其中20题来自韩国大学修学能力考试(CSAT)数学部分,涵盖微积分、概率统计与几何等内容;另30题为论文式题目,取自韩国顶尖高校、印度入学考试及东京大学研究生试题。结果显示,海外模型占据前列:谷歌Gemini 3 Pro Preview以92分居首,正确解答46题;Anthropic的Claude Opus 4.5得84分,xAI的Grok 4.1 Fast获82分,OpenAI的GPT-5.1得80分,中国深度求索DeepSeek V3.2得76分。

相比之下,韩国本土模型整体得分偏低。Upstage开发的Solar Pro 2以58分位列国内第一;Naver的HCX-007得26分;LG AI Research的EXAONE 4.0.1与SK Telecom的A.X 4.0(72B)均得24分;NC AI的轻量级模型Llama-VARCO-8B-Instruct仅得2分,排名垫底。即便允许使用Python计算工具辅助推理,差距仍未缩小。

后续采用EntropyMath数据集的测试也呈现类似趋势。该数据集覆盖从本科课程到科研级数学难度。金俊洛克强调,本次评估基于各机构已公开发布的模型版本,并计划待“国家队”版本推出后再次测试。

产业界指出,多数韩国企业聚焦服务型与工业AI应用,如智能体开发,而非通用学术推理能力。科技和ICT部长裵京勋12月16日在世宗市记者会上表示,当前国产基础模型多针对商业场景优化,科学与数学训练数据不足。他提出,若构建领域专用数据集——例如将化学分子结构转化为AI可识别格式,有望实现全球前十水平。同时,应更重视可直接部署于实际服务的轻量级模型,而非追求全学科通用能力。

(以上内容均由Ai生成)

引用自:韩国时报

你可能还想读

非洲疾控中心与Zipline签署协议推进无人机医疗物流

非洲疾控中心与Zipline签署协议推进无人机医疗物流

快速阅读: 据非洲疾病预防控制中心消息,该中心近日与齐普林国际公司签署备忘录,计划通过无人机物流技术提升非洲偏远地区医疗物资配送效率及疫情应急响应能力。合作将支持成员国将无人机纳入国家公共卫生体系,强化数据驱动的监测预警,并推动本地能力建设 […]

发布时间:2025年12月16日
AI搜索重塑零售发现格局

AI搜索重塑零售发现格局

快速阅读: 12月16日消息,中小企业凭借高质量内容与规范数据结构,在人工智能时代迅速适配生成式搜索引擎优化策略,超越行业巨头。此举反映出技术变革正重塑商业竞争逻辑,信任与内容权威性成为关键优势。 在人工智能时代,市场竞争格局正发生深刻变化 […]

发布时间:2025年12月16日
韦氏词典新增“slop”指代低质AI内容

韦氏词典新增“slop”指代低质AI内容

快速阅读: 据语言学者指出,“slop”一词新指AI生成的低质数字内容,因其缺乏原创性且高度同质化,引发公众对信息真实性与网络生态健康的担忧。专家呼吁提升用户媒介素养并强化平台审核机制。 “slop”一词最早在18世纪用来形容稀泥,到19世 […]

发布时间:2025年12月16日
AI生成培训提升钓鱼邮件识别率

AI生成培训提升钓鱼邮件识别率

快速阅读: 据各方消息,意大利巴里大学研究发现,大语言模型生成的通用反钓鱼培训内容可有效提升用户识别能力,个性化策略未显优势,且简洁提示方法效果不逊于复杂方案。 网络钓鱼仍是攻击者常用手段,用户识别能力的任何提升都值得关注。意大利巴里大学近 […]

发布时间:2025年12月16日
英伟达成全球价值最高公司

英伟达成全球价值最高公司

快速阅读: 据胡润研究院发布的报告,受AI芯片与数据中心需求激增推动,英伟达以32.8万亿元企业价值跃居全球高质量企业榜首,超越微软与苹果。中国共有158家企业上榜,占总数的15.8%,其中国企83家;在非上市企业中,OpenAI与字节跳动 […]

发布时间:2025年12月16日
昆仑芯完成股改加速推进上市

昆仑芯完成股改加速推进上市

快速阅读: 据知情人士透露,昆仑芯(北京)科技有限公司正加速推进赴港上市进程,目前已接近完成股份制改造。该公司前身为百度智能芯片部门,2025年营收显著超20亿元,计划2026年提交IPO申请,目标2027年初完成上市。 昆仑芯(北京)科技 […]

发布时间:2025年12月16日
全球首个侵入式脑机接口获批治疗药物成瘾

全球首个侵入式脑机接口获批治疗药物成瘾

快速阅读: 据中国国家药品监督管理局消息,12月15日批准景昱医疗全球首个侵入式脑机接口三类产品,用于治疗难治性阿片类药物成瘾。该系统通过深部脑刺激调节大脑奖赏通路,临床试验显示10年随访戒断率达69%,且无明显认知或功能副作用。 12月1 […]

发布时间:2025年12月16日
Stickerbox语音生成贴纸激发儿童创造力

Stickerbox语音生成贴纸激发儿童创造力

快速阅读: 据官方透露,2025年儿童AI创意硬件Stickerbox引发关注。该设备通过语音实时生成并打印贴纸,无需屏幕交互,兼顾安全与趣味;其零屏幕设计、环保材料及内容过滤机制契合3至10岁儿童需求,业内认为此举填补了亲子科技玩具市场空 […]

发布时间:2025年12月16日