微软Windows 11 Copilot升级:新增语音和视觉功能
快速阅读: 微软在Windows 11中增加多模态Copilot功能,支持语音对话、屏幕分享和执行操作,强化安全性设计,需用户明确许可,权限可控。新功能将逐步推广至所有Windows 11用户。
微软在Windows 11中增加了多模态Copilot功能。用户可以通过语音与其对话,分享屏幕,并让其代为执行操作。新功能强化了安全性,设计谨慎且内置了防护措施。微软副总裁Yusuf Mehdi表示:“我们已经见证了AI的第一阶段进化,即聊天机器人。现在,我们正站在下一阶段演化的门槛上,不仅是聊天机器人的进化,而是集成AI的进化。”
此外,微软希望将这种集成AI应用于整个Windows系统,使用户能够以自然的方式通过Copilot Voice与其对话,利用Copilot Vision“观察”用户的行为,并通过Copilot Actions执行PC上的各种操作,从简单的打开应用程序到复杂的预订机票。
尽管这些功能存在安全顾虑,但微软采取了一种不同的方法,即Copilot需要获得用户的明确许可才能执行任何操作,其权限边界明确,用户可以随时接管或撤销访问权限。目前,这些新功能仅限于Windows Insider计划的成员使用,但最终将推广至所有运行Windows 11的PC,无论是否被认为是“Copilot+ PC”。
最大的更新是Copilot Actions,这是一种能够代替用户执行操作的人工智能代理,包括打开和关闭应用程序、打字、滚动以及执行复杂操作链。微软的目标是将AI代理从被动的“问答”模式转变为能够在PC上为用户执行任务的数字合作者,例如更新文档、撰写和发送电子邮件,甚至在浏览器中预订航班。在Windows 11中,微软对代理的工作方式采取了更为保守的态度,将其限定在一个单独的账户和名为“Agent Workspace”的独立桌面中,严格控制其访问权限。
启动时,代理将具有有限的权限,并会在尝试对设备进行任何更改时提示用户。此外,用户可以随时关闭访问权限。这样做的目的是为代理提供一个明确的访问范围,并让用户清楚了解它正在做什么。
授权后,代理将能够查看用户的本地文件、应用程序和数据,从而理解PC上的内容,使用户能够使用自然语言在现有应用程序、文档或文件中提出请求,无需上下文,代理即可自动理解用户所指。
然而,这一功能的广泛能力也带来了显著的安全担忧。上次微软尝试推出具有全面访问用户数据功能的服务时,反响不佳。微软的Recall功能因用户反馈而重新开发,并进行了功能调整后再次发布。
微软希望通过Copilot的语音支持让用户更加方便地与计算机交流,目标是开辟除键盘和鼠标之外的新互动方式。Copilot Voice旨在弥合AI“提示”技能与实际任务实用性之间的差距,包括在文档中查找关键词、追踪邮件和定位下载文件的随机文件夹等,全程利用自然语言而非搜索关键字。
值得注意的是,提示技能与效果的分离是一个重要进展,因为在此之前,这两者是紧密相连的。但最终,这取决于Copilot在提供实际结果方面的表现,因为它在Windows中执行最基本任务时的表现并不理想。
安全问题也随之而来。在一个充满处理潜在敏感数据员工的办公室里,我们真的希望每个人都在对着电脑说话吗?幸运的是,在一次新闻发布会上,我从微软得到了确认,Copilot语音功能并不是要取代文本输入,而仅仅是一个用户可以选择使用的附加功能。
《ZDNET Tech Today》通讯是一份每日简报,涵盖最新、最热门的故事,每周五天发送。
订阅
通过注册,您确认自己年满16岁,将接收通讯和促销内容,并同意我们的《使用条款》及认可《隐私政策》中的数据实践。您可以随时取消订阅。
查看全部
Copilot视觉
微软为Copilot引入了一种新的多模态AI方法,称为Copilot视觉,它可以让AI“看到”你在电脑上当前的操作,并通过语音或文字向你提供建议、指示或信息。视觉功能在今年早些时候对Windows内部测试人员开放测试,现在作为Copilot核心功能的一部分,随着新功能的推出而包含在内。
此外,微软Copilot AI现在可以直接从Outlook、Gmail和其他应用程序中提取信息。
视觉功能并不是一直开启的;像语音一样,它需要被激活。它可以在Windows、Microsoft Edge或移动设备上工作,不会替你采取行动。相反,它会分析屏幕上的内容,并以指导、反馈或摘要的形式作出回应。
设计中包含了对其可用性的即时安全防护措施。例如,你必须手动选择想要让视觉功能访问的应用程序,且一次只能选择两个应用程序。在推出时,它将仅支持语音功能,但微软已经确认,文本功能将在不久之后提供。
要激活此功能,点击Copilot中的眼镜图标,然后告诉它要查看哪个应用程序。一个浮动工具栏会出现,经过短暂的语音提示后,你可以用自然语言提问。再次强调,它不会执行操作,但它可以通过激活自己的光标来显示屏幕上某个位置。
微软365集成
除了这些新功能外,Copilot现在还可以直接与微软365(前身为微软Office)应用程序接口,包括OneDrive、Outlook和Google Drive。利用语音和视觉功能,Copilot不仅能够响应关于你授权访问的文档的提示,还能创建、导出、设计和编写这些应用程序中的文档——所有这些都通过自然语言请求完成。
该功能目前仍在测试中,仅对Copilot内部测试计划成员开放,于10月初宣布。
每天早上,您都可以通过我们的《Tech Today》通讯在邮箱中收到当天的头条新闻。
更多微软内容
微软50周年:令人难以置信的崛起、15年的迷失岁月以及惊人的复兴——用4张图表展示
想接受微软免费的AI培训?现在就可以报名参加其AI技能节
微软的无密码未来已到来,适用于Outlook、Xbox、365等
微软的新AI代理旨在帮助安全专业人士对抗最新威胁
每次安装新的Windows系统时,我会卸载的11个微软应用程序和保留的11个
(注:重复部分未再列出,以保持内容精炼)
(以上内容均由Ai生成)