Manus 可能不是中国的第二个“DeepSeek 时刻”
快速阅读: 《TechCrunch 技术紧缩》消息,上周发布的AI平台曼纳斯引发广泛关注,超过了泰勒·斯威夫特演唱会的关注度。尽管其官方Discord服务器短时间内达到13.8万成员,但用户反馈存在诸多问题,如错误信息、死循环和任务失败。曼纳斯被指使用现有AI模型,并非完全原创。炒作可能源于邀请码稀缺及媒体夸大宣传。尽管如此,曼纳斯仍在早期测试阶段,公司正努力解决技术问题。
上周发布的“能动型”AI平台曼纳斯引发了比泰勒·斯威夫特演唱会更多的关注。Hugging Face的产品负责人称曼纳斯是“我试过最令人印象深刻的AI工具”。AI政策研究员迪恩·鲍尔描述曼纳斯是“使用AI的最复杂计算机”。曼纳斯的官方Discord服务器在几天内就达到了超过13.8万成员,据报道,曼纳斯的邀请码在闲鱼上被炒到了数千美元。但目前尚不清楚这种炒作是否合理。曼纳斯并不是完全从零开始开发的。据社交媒体报道,该平台使用了包括安苏布克的克劳德和阿里巴巴的Qwen在内的现有和微调AI模型,以执行撰写研究报告和分析财务文件等任务。然而在其网站上,曼纳斯背后的中国初创公司蝴蝶效应给出了平台能够实现的一些夸张功能示例,从买房到编写视频游戏。在X平台上的一段广为流传的视频中,曼纳斯的研究负责人吉叶超(音译)暗示该平台优于OpenAI的深度研究和运营商等能动型工具。吉声称,曼纳斯在一项名为GAIA的流行通用AI助手基准测试中表现优于深度研究,该测试通过浏览网页、使用软件等方式来评估AI的工作能力。“曼纳斯不仅仅是一个聊天机器人或工作流程,”吉在视频中说,“它是一个完全自主的代理,填补了概念与执行之间的空白……我们把它看作是人机协作的新范式。”
但一些早期用户表示,曼纳斯并不是灵丹妙药。AI创业公司普莱亚斯的联合创始人亚历山大·多里亚在X上发文表示,他在测试曼纳斯时遇到了错误信息和死循环。其他X用户指出,曼纳斯在事实性问题上出错,引用资料不一致,而且经常遗漏网上容易找到的信息。我自己使用曼纳斯的经历并不十分积极。我让平台处理了一个看似简单的要求:从我送餐范围内的顶级快餐店订购一份炸鸡三明治。大约10分钟后,曼纳斯崩溃了。第二次尝试时,它找到了符合我要求的菜单项,但曼纳斯无法完成订购流程,甚至无法提供结账链接。用曼纳斯订炸鸡三明治是一次让人失望的经历。曼纳斯在帮我预定从纽约到日本的航班时也失败了。尽管我认为我的指示已经很明确(例如,“寻找商务舱航班,优先考虑价格和灵活日期”),但曼纳斯最好的表现只是提供了多个航空公司网站和像卡亚克这样的机票搜索引擎的链接,其中一些链接已损坏。曼纳斯目前还不能帮你预订飞往东京的航班。希望接下来的任务会顺利些,我让曼纳斯预订了一家附近的餐厅。几分钟后就失败了。然后我要求平台构建一款《火影忍者》风格的格斗游戏。半小时后出了错,于是我决定放弃。
曼纳斯的一位发言人通过私信向TechCrunch发来了以下声明:“作为一支小团队,我们专注于不断改进曼纳斯,让它真正帮助用户解决问题……当前封闭测试的主要目标是系统的压力测试并找出问题。我们非常感谢大家提供的宝贵意见。”
因此,如果曼纳斯未能兑现其技术承诺,为什么它会爆红?一些因素促成了这种情况,比如通过邀请稀缺性制造的排他性。中国媒体迅速将曼纳斯吹捧为AI突破;QQ新闻称其为“国产之光”。与此同时,社交媒体上的AI影响者传播了关于曼纳斯功能的虚假信息。一段广泛传播的视频显示了一个桌面程序,显然是曼纳斯,在多个手机应用中操作。吉确认这段视频实际上不是曼纳斯的演示。X上的其他有影响力的AI账号试图将曼纳斯与中国AI公司深寻做对比,这些比较未必基于事实。蝴蝶效应并未自主研发模型,而深寻则做到了这一点。虽然深寻公开了许多技术,但蝴蝶效应尚未——至少目前还没有。公平地说,曼纳斯仍处于早期测试阶段。该公司声称正在努力提升计算能力并解决报告的问题。但目前看来,曼纳斯似乎是炒作走在技术创新前面的一个例子。
(以上内容均由Ai生成)