DeepSeek 在中国科技繁荣中竞相推出新的 AI 模型
快速阅读: 《国际新闻》消息,深探科技公司因其价格竞争力强的AI推理模型R1引发全球股市巨震,并加速推出R2。该公司创始人梁文峰通过低成本的AI模型和技术革新获得成功。中国高层支持深探,使其迅速发展,但也引来西方国家对AI芯片和数据安全的担忧。
科技新闻深探公司在华科技热潮中竞相发布新的AI模型。新模型可能让美国政府感到担忧,因为美国政府已将领导人工智能视为国家优先事项。路透社2025年2月26日报道,这张插图拍摄于2025年1月29日,展示了深探的标志。
中国初创公司深探在全球股市引发了地震般的转变,上个月其价格竞争力强的AI推理模型R1的发布引发了超过1万亿美元的股票抛售。作为对其初步成功的回应,这家总部位于杭州的公司正在加快推出其继任者R2的步伐,旨在比原定的5月提前发布。据熟悉该公司的消息人士透露,该公司旨在比原定的5月提前发布。R2的加速发布时间表细节此前未被报道。深探没有回应有关此事的评论请求。
竞争对手仍在消化R1的影响,R1使用了较弱的英伟达芯片构建,但与美国科技巨头耗资数百亿美元开发的模型竞争。“深探的R2模型的发布可能是人工智能行业的一个关键时刻,”印度技术服务提供商Zen公司首席运营官维贾亚西姆哈·阿利卢加塔说。深探成功地创建了成本效益高的AI模型,“可能会促使全球各地的公司加速自身努力……打破少数主导企业在该领域的垄断地位,”他说。R2很可能会让美国政府感到担忧,因为美国政府已将领导人工智能视为国家优先事项。它的发布可能会进一步激励中国政府和公司,数十家公司表示他们已开始将深探模型整合到其产品中。
关于深探知之甚少,其创始人梁文峰通过他的量化对冲基金高飞者成为了亿万富翁。梁文峰被前雇主描述为“低调内向”,自2024年7月以来一直未接受任何媒体采访。路透社采访了十多名前员工,以及了解深探及其母公司高飞者运营情况的量化基金专业人士。它还回顾了自2019年起的官方媒体文章、公司社交媒体帖子及研究论文。他们讲述了一个公司运作更像是一个研究实验室而不是盈利企业,并且不受中国高压科技行业等级制度束缚的故事,即使它已成为许多投资者眼中的最新AI突破。
新路径
梁文峰出生于1985年,在广东省南部的一个乡村。后来他在精英大学浙江大学获得了通信工程学士学位。他早期的工作之一是在上海一家智能成像公司管理研究部门。他的时任老板周朝恩于2月9日告诉官方媒体,梁文峰雇佣了获奖算法工程师,并采用了“扁平化管理模式”。在深探和高飞者,梁文峰同样摒弃了中国科技巨头所采用的僵化的自上而下的管理模式、年轻员工的低薪以及“996”——每周工作六天,每天从早上9点工作到晚上9点。梁文峰在北京的办公室距离清华大学和北京大学这两所中国最著名的教育机构步行即可到达。根据两名前员工的说法,他经常深入技术细节,并乐于与以Z世代实习生和应届毕业生为主的员工一起工作。他们还描述了通常在合作氛围下工作八小时的情况。“梁文峰给了我们控制权,并把我们当作专家对待。他不断提问并与我们一起学习,”26岁的研究员刘斌(音译)说,他于去年9月离开了公司。“深探让我拥有了关键部分的所有权,这非常令人兴奋。”
梁文峰没有回应通过深探发送的问题。虽然百度和其他中国科技巨头在2023年竞相打造面向消费者的ChatGPT版本并从中获利,但梁文峰去年告诉中国媒体Waves,他故意避免在应用开发上投入大量资金,而是专注于改进AI模型的质量。据三位熟悉其薪酬实践的人士称,深探和高飞者都以慷慨著称。在高飞者,高级数据科学家年薪达到150万元并不鲜见,而竞争对手很少支付超过80万元,其中一位人士说,他是一位了解梁文峰的竞争对手量化基金经理。这种慷慨由高飞者提供资金支持,高飞者成为中国最成功的量化基金之一,即使在政府对该行业的打压之后,仍然管理着数十亿元的资金,据两位业内人士称。
计算能力
深探的成功在于低成本的AI模型,这得益于高飞者长达十年的重大投资研究和计算能力,三个人说。量化基金是早期的AI交易先驱,一位高管在2020年表示,高飞者通过重新投资70%的收入,主要投入AI研究,全力转向AI。
飞鸿基金在2020年和2021年花费了12亿元人民币用于两个超级计算AI集群。第二个集群“萤火虫II”由大约10,000块英伟达A100芯片组成,用于训练AI模型。深探当时尚未成立,因此其计算能力的积累引起了中国证券监管机构的关注,知情人士表示。“监管机构想知道他们为什么需要这么多芯片?”这位知情人士说。“他们打算如何使用这些芯片?这对市场会有什么影响?”当局决定不进行干预,这一举动对深探的命运至关重要:美国在2022年禁止向中国出口A100芯片,此时萤火虫II已经投入运行。北京现在庆祝深探,但指示其未经批准不得与媒体接触,知情人士透露。当局要求梁文峰保持低调,因为他们担心媒体上的过度炒作会吸引不必要的注意,这位知情人士说。中国的内阁、商务部以及中国证券监管机构没有回应置评请求。
作为少数几家拥有大型A100集群的公司之一,飞鸿基金和深探能够吸引一些中国最好的研究人才,两位前雇员表示。“大量(计算)资源的关键优势在于它允许进行大规模实验,”前雇员刘先生说。一些西方AI企业家,如Scale AI首席执行官亚历山大·王声称,深探拥有多达50,000块被禁止出口到中国的高端英伟达芯片。他没有提供证据或回应路透社要求提供证据的请求。深探没有回应王的指控。
两位前雇员将公司的成功归功于梁文峰对更具成本效益的AI架构的关注。这家初创企业采用了诸如专家混合(MoE)和多头潜在注意力(MLA)等技术,其研究论文显示,这些技术的计算成本要低得多。MoE技术将AI模型分为不同的专业领域,并仅激活与查询相关的部分,而不是更常见的使用整个模型的架构。MLA架构使模型能够同时处理一条信息的不同方面,帮助其更有效地检测关键细节。虽然像法国的Mistral这样的竞争对手已经开发出了基于MoE的模型,但深探是第一家依赖这种架构并实现与更昂贵构建的模型相媲美的公司。伯恩斯坦经纪公司的分析师们在2月上旬估计,深探的价格比OpenAI提供的等效模型便宜20到40倍。
目前,西方和中国科技巨头都表示计划继续大力投资AI,但深探凭借R1及其早期的V3模型的成功促使一些人改变了策略。OpenAI本月下调了价格,而Google的Gemini推出了折扣访问层级。自R1推出以来,OpenAI还发布了O3-Mini模型,该模型依赖较少的计算能力。
中国拥抱深探
即使在R1引起全球关注之前,也有迹象表明深探已经得到了北京的青睐。今年1月,中国媒体报道称梁文峰在北京与中国总理李强会面,作为人工智能领域的指定代表,排在知名度更高的公司领导人之前。随后关于其模型成本竞争力的宣传增强了北京认为中国可以超越美国创新的信心,中国企业和政府机构以前所未有的速度采用深探的模型。至少有13个中国城市政府和10家能源公司表示已将深探部署到其系统中,而科技巨头联想、百度和腾讯——中国最大的社交媒体应用微信的所有者——已将其模型集成到其产品中。
新加坡国立大学李光耀公共政策学院的中国政策制定专家吴伟生表示,中国领导人习近平和李克强“已经表示支持深探。”“现在每个人都支持它。”
中国拥抱深探的现象伴随着韩国到意大利的政府从国家应用商店中移除深探,理由是隐私问题。“如果深探成为中国国有实体的首选AI模型,西方监管机构可能会将其视为进一步限制AI芯片或软件协作的另一个原因,”人工智能专家兼对冲基金Carthage Capital创始人吴伟说。“我们的资金问题从未存在过,”他在7月告诉Waves。“问题是高端芯片的禁运。”
(以上内容均由Ai生成)