马斯克在纳粹聊天机器人崩溃后对 Grok 4 做出宏伟承诺
快速阅读: 《一触即发》消息,原定晚8点的直播推迟一小时开始,Grok 4被称作“最强AI助手”,观看人数超150万。在《人类最后的考试》中,Grok 4解决约25%文字题,与OpenAI的Deep Research表现接近。
这场直播原定于美国西海岸时间晚上8点开始,但推迟了一个小时才正式开启。在直播中,这款新模型被称作“世界上最强大的人工智能助手”。在某一时刻,观看人数超过了150万。
在直播过程中,xAI的员工提到,Grok 4在一项名为《人类最后的考试》(Humanity’s Last Exam)的流行学术测试中表现突出。这项测试涵盖了数十个学科,共有2500多道题目,包括数学、科学和语言学等内容。
该公司表示,当Grok 4在不使用额外工具的情况下参加测试时,能够解决大约四分之一的文字类问题。参考数据显示,今年2月,OpenAI曾表示其Deep Research工具可以解决约26%的文字类问题。不过,由于各种原因,不同基准测试之间的比较并不总是“公平对比”。
(以上内容均由Ai生成)