登上“最不可能作弊”的榜单,阶跃星辰Step-2位列中国大模型第一|甲子光年

发布时间:2025年11月3日    来源:szf

在”最难AI榜”,拿下中国第一、全球第五。
作者|王艺
编辑|栗子
11月19日,国际权威榜单LiveBench官网公布了最新的语言大模型测评结果:作为唯一进入前十名的中国公司,阶跃星辰自研的万亿参数语言大模型Step-2-16k-202411(下文简称Step-2)位列全球第五,成绩逼近OpenAI的o1-mini-2024-09-12,超越gpt-4o-2024-08-06、gemini-1.5-pro-002等国际主流模型,是表现最佳的中国基座大模型。
图源:LiveBench官网
根据榜单,Step-2在IFAverage(InstructionFollowing)一项表现突出,超越包括o1-preview-2024-09-12在内的所有国内外语言大模型。
在AI届,LiveBench榜单一直以严苛的标准被人称为”最难AI榜”。而在国内AI”六小强”中阶跃星辰一直以技术实力强和低调著称,此次登顶LiveBench榜单中国第一,也掀开了这家大模型创业公司的神秘面纱。
事实上,LiveBench是今年新推出的大模型基准测试,但它已经迅速跻身为AI圈”最具权威性和挑战性”的榜单。
不仅因为LiveBench是由图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)联合Abacus.AI、纽约大学等机构推出的大模型测评基准,更因为它特殊的评测机制,被行业内誉为”无法被操纵的LLM基准测试”。
图源:LiveBench官网
LiveBench自设立之初就致力于消灭”刷榜作弊”的可能性:在评估前就用评估基准数据集相关或完全相同的数据进行训练,最终取得较高排名(就像手机厂商针对安兔兔跑分优化一样)。
而且LiveBench每月会发布新问题,并根据最近发布的数据集、arXiv论文、新闻文章和IMDb电影简介设计问题,以限制可能出现的数据污染现象,并且每个问题都有可验证的、客观的基本真实答案,最大限度保证结果的客观性。
LiveBench的权威性也部分源自评测范围广泛,截至今年6月,已经评估了几个著名的闭源模型和数十个开源模型。
LiveBench有多难?此前GPT-4-Turbo曾在SuperCLUE-OPEN基准上取得了98.40的高分。但在LiveBench上,GPT-4-Turbo整体准确率却只有50%左右。
在这样严苛的测试标准下,阶跃星辰Step-2-16k-202411万亿参数MoE模型不仅拿下了中国第一、全球第五的名次,其成绩更是超越了GPT-4o-2024-08-06、gemini-1.5-pro-002等国际主流模型,直逼OpenAI的o1-mini-2024-09-12。
尤为值得一提的是,Step-2在IFAverage(InstructionFollowing,指令跟随)一项表现突出,超越了包括o1-preview-2024-09-12在内的所有国内外语言大模型。这项指标意味着大模型在语言生成上对细节有最强的控制力,模型能够更好地理解和遵循人类指令。
Step-2-16k-202411指令跟随能力全榜第一,图源:LiveBench
阶跃星辰之所以能够首次参加LiveBench评测就取得如此高的成绩,与其自研Step-2大模型的两大特点密不可分——万亿参数和MoE架构。
相对于阶跃星辰自研的千亿参数语言大模型Step-1,Step-2的综合能力提升了近50%,无论是编程、逻辑推理、数学、知识等维度都能更好地解决问题。
在模糊指令方面,Step-2具备出色的理解能力,能够从上下文中推断出用户的需求,精准捕捉用户在模糊指令中的真实意图,提供更准确、个性化的响应。在知识分布方面,Step-2在知识覆盖范围和深度上都取得显著突破,不仅能够处理常见领域知识,还能深入理解和回答在特定领域或边缘分布中的复杂问题。
我们在阶跃星辰的C端智能助手“跃问”上测试了Step-2的效果。
给出一道数学题,“跃问”能很快给出解答。
数学题,图源:跃问
在文字创作方面,Step-2能够生成高质量、有创意的文字内容,同时具备出色的细节控制能力,能够根据用户的指令对文本进行精确地调整和优化。
阶跃星辰CEO姜大昕认为,想把模型参数扩大到万亿的话,MoE几乎是一个必选项。但从千亿模型到万亿模型,所遇到的挑战是前所未有的。阶跃星辰团队在设计Step-2MoE架构时候选择了迎难而上,完全自主研发从头开始训练。
通过部分专家共享参数、异构化专家设计等创新MoE架构设计,Step-2中的每个”专家模型”都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分稠密模型。
这也是Step-2之所以具有超强能力的根本原因所在。
大模型算法结构复杂、对算力要求高、对数据需求大,大语言模型和多模态大模型的技术路线也存在差异。也正是因此,不少公司都选择了”取其一点、打穿打透”的策略,专攻大语言模型或多模态大模型。
但阶跃不同。在众多国产模型厂商中,阶跃星辰是为数不多同时布局大语言模型与多模态模型、两个方向齐发力的公司。
除了完整、全面的模型矩阵,阶跃星辰的模型迭代速度也走在全国前列:
在2024年3月23日的全球开发者先锋大会上,阶跃发布了语言大模型Step-2的预览版——这也是国内初创公司,首次交出的万亿参数模型的答卷。
而今年7月,仅仅时隔100天,阶跃星辰就在2024WAIC上发布了Step-2万亿参数大语言模型正式版,以及Step-1.5V多模态大模型、Step-1X图像生成大模型。
相较于其他厂商每半年或一年才更新一个新版本,阶跃星辰的迭代速度不可谓不快。
目前,阶跃星辰Step系列通用大模型矩阵,已经覆盖了从千亿参数到万亿参数,从语言到多模态,从理解到生成的全面能力。
阶跃星辰创始人兼CEO姜大昕认为,要实现AGI的终局需要走一条”单模态—多模态—多模理解和生成的统一—世界模型—AGI(通用人工智能)”的路。
今年随着o1的发布,AI技术也出现了新的范式,国内外基座大模型研发的竞赛还在继续。相信包括阶跃星辰的国产大模型,会继续在实现AGI之路上创造更多惊喜。
(封面图来源:阶跃星辰官网)
END.

你可能还想读

Default Image

AI眼镜厂商Solos发布两款新智能眼镜,售价249美元起

36氪获悉,AI眼镜厂商Solos在香港举办的2025智能眼镜研讨会上官宣了新一代智能眼镜产品。此次新品拓展了其AirGo产品线,带来了两款新产品:聚焦音频交互的AirGo™ A5和具备视频功能的AI眼镜AirGo™ V2。Solos Ai […]

发布时间:2025年11月3日
Default Image

大模型为深度伪造带来土壤,业界呼吁跨学科联合攻坚鉴伪技术

·鉴伪技术开发需要跨学科合作,当前的鉴伪技术以软件算法为主,未来将走向软硬一体。大模型兴起为深度伪造带来土壤,业界呼吁跨学科联合攻坚鉴伪技术。在大模型时代,人工智能合成语音与真实语音之间的界限变得越发模糊,提升与之匹配的识别技术迫在眉睫。7 […]

发布时间:2025年11月3日
Default Image

小米AI眼镜发布,支持“看一下支付”,1999元起

6月26日,小米重磅发布“面向下一代的个人智能设备”——小米AI眼镜。全新小米AI眼镜具备可支付功能,内置支付宝“看一下支付”,方便用户在双手忙碌或不便使用手机时,通过眼镜扫码支付,安全又便捷。据悉,小米AI眼镜现已开售,1999元起。小米 […]

发布时间:2025年11月3日
Default Image

小米AI眼镜发布,支持“看一下支付”,1999元起

6月26日,小米重磅发布“面向下一代的个人智能设备”——小米AI眼镜。全新小米AI眼镜具备可支付功能,内置支付宝“看一下支付”,方便用户在双手忙碌或不便使用手机时,通过眼镜扫码支付,安全又便捷。据悉,小米AI眼镜现已开售,1999元起。小米 […]

发布时间:2025年11月3日
Default Image

小米首款AI眼镜在京东开售 1999元起晒单享3期免息

6月26日,小米正式推出其首款AI眼镜,定位为“面向下个时代的个人智能设备”,目前已在京东同步上架开售,售价1999元起,叠加国补优惠后到手价低至1699元。京东还为该款AI眼镜推出限时福利,京东购机用户可参与抽奖,有4台免单机会,晒单用户 […]

发布时间:2025年11月3日
Default Image

6月国产手机各价位段销量冠军出炉:华为中高端齐开花

【CNMO科技消息】近日,有数码博主曝光了2025年6月国产手机各价位段销量冠军机型。CNMO注意到,华为在中高端市场全面领先,实现“齐开花”的强势表现;OPPO Reno14则包揽全价位段和部分中端市场冠军;vivo则在特定区间占据优势。 […]

发布时间:2025年11月3日
Default Image

华为发布Pura80系列手机 售价6499元起

观点网讯:6月11日,华为召开Pura80系列及全场景新品发布会,发布了Pura80系列手机、华为WATCH5等产品。据悉,华为Pura80系列包括Pura80,Pura80 Pro及Pro+,Pura80 Ultra四款产品。发布会上,华 […]

发布时间:2025年11月3日
Default Image

2699元起 华为nova10系列今日发布_TechWeb

【TechWeb】2022年7月4日,华为正式发布华为nova10系列新品手机。华为nova10系列将于2022年7月8日10:08正式开售,共有“10号色”“曜金黑” “普罗旺斯““绮境森林”四种颜色提供选择。其中华为nova10 128 […]

发布时间:2025年11月3日