实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

发布时间:2025年11月3日    来源:szf

机器之心原创编辑:杜伟、大盘鸡
算起来,距离5月14日OpenAI发布GPT-4o高级语音模式已经过去了半年时间。在这期间,AI实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。
不过,由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难,因此这个赛道的玩家并不多。可以看到,目前唯一有能力抗衡GPT-4o的恐怕只有谷歌的GeminiLive了。
如今,这对“冤家”都在忙着扩大用户生态。OpenAI向各类付费用户开放了GPT-4o语音功能,并与苹果合作接入到了Siri中。谷歌先是允许所有安卓用户访问GeminiLive语音功能,并于近日支持iOS用户与该语音助手交流。
与此同时,国内一些厂商陆续推出了类似的实时语音对话大模型及应用,比如智谱、科大讯飞等,填补了一些空白。如今,这个赛道又迎来了一个有实力的新玩家——它就是昆仑万维开发的Skyo实时语音对话助手。
声音听起来还不错吧!Skyo内置了非常清亮、爽朗的男声。
Skyo基于背后的天工大模型4.04o版(Skywork4o)打造。从名称上看,Skyo中的“o”同样代表了omni的意思,并落在语音对话场景,直接对标了GPT-4o。从定位和功能上看,作为一个智能语音互动产品,Skyo具备了快速响应、实时打断、情感化反应、真实内容互动和个性化声音定制等多样化的功能。
可以说,用户想要在AI语音对话中体验的场景和功能,Skyo基本上都能hold,还针对当前AI语音助手存在的一些痛点进行了优化。
实时对话AI
一要准、二要快
与传统语音助手的主要区别在于,基于大模型开发的AI实时语音对话助手能够应对更复杂的语境、执行更个性化的任务,并开始从“工具”的属性过渡到“人类伴侣”。
自GPT-4o之后,语音交互场景的AI具备了前所未有的感知能力,在更智能化、更多面手之外,不仅响应延迟明显降低了,还能准确读懂用户的情感语调,如兴奋、高兴或悲伤,并以逼真的方式模仿和回应。
不过,随着更多用户体验到GPT-4o语音功能,它的一些缺点陆续显露了出来,比如不擅长识别自然停顿、无法准确响应要求的话题等。
同样地,此后出现的一系列对标GPT-4o的产品,如谷歌GeminiLive、法国开源AI研究实验室Kyutai的Moshi等,虽然都宣称要打造自然流畅的AI对话,但从用户反馈来看,依然存在着一些直接影响对话体验的短板,比如可用性差、中断频繁和延迟严重等。
当然,面对AI实时语音对话助手的常见通病,Skyo也需要尽力去克服。究竟效果怎么样呢?我们还是得看它的现场表现。
一手实测
会念诗、还拿捏住了拟人化
在与Skyo来了场面对面的交谈后,我们收获了一些小惊喜。
首先,我们来咨询Skyo一些健康常识问题,他回答的比较合理、全面,也有侧重性。当中,我们在他没有回答完上个问题的时候,就开始了下个问题,他衔接得挺好。这说明了Skyo能够轻松应对用户打断场景,并在两个问题之间顺滑地切换。
我们还发现,Skyo的回答中出现了类似于人类日常交谈中常用到的“呃”,这代表了他是在思考后才回答的。语气也不像机器人那样机械、僵硬、冷冰冰,会出现“哎呀”等感叹词,拟人化属性很强。
其次,情感化反应已经成为现阶段语音交互AI追求的主要目标之一,在对话中要有能力识别出用户的情绪波动并给予准确的反馈。
Skyo在这方面做得也不错,他能够理解用户情绪,并使对话更具人性化。当我们跟他说一些烦心事时,他会安慰我们,情绪价值给得很足,还给出了一些建议。
我们接着让Skyo讲个小笑话,结果“冷翻了全场”。
既然他不擅长讲笑话,那就换个最近网络上的热门话题,问他知不知道小米雷军在汽车工厂摆拍,看起来他对这件趣事挺门清的。
再让Skyo对最近李子柒的回归做一个评价,从结果来看,他的语言组织和总结能力还是不错的。如果放在现实世界中,他写作文应该是把好手。
这同时也意味着Skyo具备了一定的实时资讯获知和知识拓展能力,借助外部知识库来强化自己。
最后,让Skyo切换成英姿飒爽的女声,并让她念了一首诗。她第一时间选择了李白的《静夜思》,看样子是有点浪漫基因在身上的。
再以男声朗诵徐志摩的《再别康桥》,感情充沛,节奏把握得也很好。
这样一个男女声自由切换、会安慰人、会念诗、还能知晓天下事的国产AI聊天搭子,如何炼成的呢?
以上Skyo各项能力的实现要归功于其采用了先进的端到端实时语音建模技术,其中框架链路自研并保持业界领先。这样一来,在高精度理解用户语音输入内容(即听得准)的基础上,做出比较快速的响应(即答得快),响应时间一般在1秒左右。
另外,得益于昆仑万维在自研语音技术框架、大模型训练以及数据积累上的厚积薄发,Skyo还能够在高强度对话中保持稳定性和流畅性,并在情绪表达、实时交互等方面更加契合用户需求。
不过,我们也得承认,现阶段Skyo的功能并不完善,在回复的过程中偶尔也会出现声音的扭曲失真,但这都是进化路上所要经历的。
未来,Skyo将继续修炼自己,并发力多语言支持、主动交流、音乐生成等更丰富的功能。我们可以狠狠期待一波了。
当ScalingLaw放缓
多模态AI应用势在必行
最近,ScalingLaw“撞墙”的消息开始在AI社区传播,领域顶级玩家OpenAI、谷歌和Anthropic均被曝出在开发更先进模型时遇到了不小的困难,比如OpenAI内部代号“Orion”的新模型没有达到预期训练效果。
虽然之后这一观点遭到了一些人的驳斥,但不可否认的是,随着互联网高质量数据逐渐匮乏、主流大模型训练没有跳出Transformer架构等因素的影响,大模型开发速度的放缓似乎是必然的。
奥特曼:“墙”不存在。
相反,基于大模型的AI应用正在走向百花齐放,比如搜索引擎、音乐生成、语音交互、智能体,可以拓展生成式AI的落地场景并重塑人机交互范式,带来多样化AI体验和生产力提升。因此,在保证基座模型性能“不掉队”的前提下,形成完整的应用矩阵,对于想要持续站稳脚跟的厂商来说尤为重要。
在这方面,昆仑万维可以说布局较早且合理。一方面,自研天工系列基座大模型已经发展到4.0版本,性能处于全球领先水平。另一方面,构建了清晰、多元的AI业务矩阵,在天工AI平台集成了AI搜索、AI文档-音视频分析、AI写作、AI音乐、AI图片生成等主流AIGC应用。模型与应用两手抓,两手都要硬。
此次,Skyo实时语音对话助手是昆仑万维抢占AI语音交互应用市场、布局多模态的又一举措。与不久之前上线的天工AI高级搜索功能一样,也将成为构筑全栈式大模型能力堆栈的重要一环。
我们了解到,Skyo实时语音对话助手将于近期上线天工App,并接入天工搜索以获取更准确的实时资讯。可以预见,此举将进一步丰富天工平台的功能,让用户打开手机就能体验到AI原生实时对话的乐趣。
回望年初,昆仑万维提出了“实现通用人工智能,让每个人更好地塑造和表达自我”的全新使命。为此,该公司以天工AI平台为主阵地,对其上的AI应用不断进行功能上的迭代更新,深拓大模型能力释放出口,将新世代的人机交互贯穿文本、图像、语音等更全模态。
未来,昆仑万维还将继续发力实时图像与视频理解等领域,并形成开箱即用的AI应用,从而在创新技术进步、全面满足用户AIGC需求的过程中加快迈向AGI的步伐。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

你可能还想读

Default Image

欧美最顶尖的5家云厂商,都在押注什么?

大数据产业创新服务媒体 ——聚焦数据·改变商业 在数字时代的大潮中,人工智能技术如同一股强劲东风,正以前所未有的速度席卷全球云服务行业,推动其步入前所未有的智能升级阶段。随着计算能力的飞跃与数据量的爆炸性增长,AI技术在云服务领域的融合应用 […]

发布时间:2025年11月3日
Default Image

台积电表忠心的速度有点快

近期有消息称,美国已要求台积电从11月11日开始,停止向中国大陆客户运送常用于人工智能(AI)应用领域的先进芯片,专门针对我国的人工智能领域。此消息虽然没有官宣,不过据了解这条消息基本属实,目前国内公司如果想做高性能AI相关芯片,台积电大概 […]

发布时间:2025年11月3日
Default Image

AI行业存在泡沫吗?

观·察 泡沫的形成是技术发展吸引投资的必要过程,而泡沫的破灭则可以促使社会和制度进行调整,为新技术的全面应用和经济的可持续增长创造条件。 ——陈永伟 图片来源:东方IC AI行业存在泡沫吗? 文/陈永伟 前几天,AI(人工智能)圈出了一件大 […]

发布时间:2025年11月3日
Default Image

外媒:台积电停供大陆7纳米AI芯片

据路透社10日报道,美国商务部致函台积电,要求从11日开始停止向中国大陆客户供应7纳米及更先进工艺的AI芯片。这一出口限制措施主要针对用于人工智能加速器以及图形处理单元(GPU)的芯片。 报道称,美商务部的这封信函允许美国绕过相关规则制定过 […]

发布时间:2025年11月3日
Default Image

李彦宏:智能体是AI应用的最主流形态 即将迎来爆发点

“过去24个月,AI行业的最大变化是什么?是大模型基本消除了幻觉。” 11月12日,百度创始人李彦宏在百度世界2024大会上,发表了主题为《应用来了》的演讲,发布两大赋能应用的AI技术:检索增强的文生图技术(iRAG)和无代码工具”秒哒”。 […]

发布时间:2025年11月3日
Default Image

AI闯关双十一:受伤的还是人类

或许大家还没意识到今天才是双十一。因为当双十一这天真来了,人们的感觉却是”双十一购物节”已经结束了。 步入”16岁”的双十一,从”光棍节”到”购物节”。在经历了奥数般的计算、复杂的玩法、到点蹲点抢红包等等规则后,今年的消费者显得格外疲倦。 […]

发布时间:2025年11月3日
Default Image

NPU:真需求?假创新?

👆如果您希望可以时常见面,欢迎标星🌟收藏哦- 来源:内容编译自theregister,谢谢。 如果您现在还没有听说过神经处理单元(NPU),那么您一定错过了英特尔、AMD和高通一年的人工智能营销。 在过去的12个月中,这些专注于AI的处理器 […]

发布时间:2025年11月3日
Default Image

是时候重新认识To B圈的「双11」了

“双11″曾是一场商业与技术的伟力创造的”奇观”。但对于toB圈而言,只有当它造就的”奇观”成为寻常,下一个奇迹才会诞生。 11月11日,时针指向23点59分,杭州阿里巴巴云谷园区灯火通明。阿里云双11″作战指挥室”数据监控大屏上,销售额以 […]

发布时间:2025年11月3日