AI

AI为何能像人类一样“说话”:背后的统计计算真相

发布时间:2025年9月10日    来源:szf
AI为何能像人类一样“说话”:背后的统计计算真相

快速阅读: 生成式AI常被比喻为“文字计算器”,旨在处理大量语言数据,但该比喻受到批评,因为它忽略了AI的伦理问题。实际上,AI通过模拟人类语言的统计规律,成功地让输出“感觉正确”,从而欺骗人类直觉。

尝试解释生成式人工智能(AI)及其功能,已经产生了各种比喻和类比。从“黑箱”到“增强版自动补全”,再到“鹦鹉”甚至“运动鞋”,这些比喻旨在通过将复杂技术与日常体验联系起来,使其更容易理解——即使这种比较常常过于简化或误导。

一种越来越普遍的比喻是将生成式AI描述为“文字计算器”。这一比喻部分由OpenAI首席执行官山姆·阿尔特曼推广,它暗示着生成式AI工具就像我们在数学课上使用的塑料计算器一样,用于处理大量的语言数据。

相关报道:“AI胡言乱语”无处不在。专家解释了其中的利害关系。

尽管如此,“计算器”这一比喻也受到了合理的批评,因为它可能掩盖了生成式AI更令人担忧的方面。与聊天机器人不同,计算器没有内置偏见,不会出错,也不会引发根本性的伦理困境。

然而,完全否定这一比喻也有风险,因为从本质上讲,生成式AI工具确实是文字计算器。关键不在于工具本身,而在于计算的过程。在生成式AI工具中,这些计算旨在模仿支撑日常人类语言使用的基础计算。

语言中的隐含统计规律

大多数语言使用者往往只是间接意识到,他们的交流实际上是统计计算的产物。例如,当听到有人将“盐和胡椒”说成“胡椒和盐”时,会感到不适;或者在咖啡馆点一杯“强力茶”而非“浓茶”时,会得到奇怪的目光。为什么我们很少听到“胡椒和盐”?(Bluberries/Getty Images Signature/Canva)

决定我们如何选择和排列词语以及语言中许多其他序列的规则,源自我们与这些词语的社会接触频率。你越频繁地以某种方式听到某个表达,其他替代方式就越显得不可行。或者说,其他计算出的序列听起来越不可能。

在语言学这个专门研究语言的广阔领域中,这些序列被称为“搭配”。它们展示了人类如何根据词语是否“感觉正确”来计算多词模式——也就是说,这些词语是否听起来合适、自然且具有人性。

为什么聊天机器人的输出“感觉正确”

大型语言模型(LLMs)——因此也是聊天机器人——的一个主要成就是,它们成功地形式化了这种“感觉正确”的因素,以至于现在可以成功欺骗人类的直觉。

事实上,它们是世界上最强大的搭配系统之一。通过在抽象空间中映射词语的意义和关系,计算符号(无论是单词、符号还是颜色点)之间的统计依赖关系,AI生成的序列不仅能在图灵测试中冒充人类,而且更令人不安的是,能让用户对其产生爱慕之情。

这些发展的可能性很大程度上源于生成式AI的语言学根基,这一点往往被技术发展叙事所忽视。但是,AI工具不仅是计算机科学的产物,也是不同分支语言学的产物。

当代大型语言模型如GPT-5和Gemini的先驱是冷战时期的机器翻译工具,设计目的是将俄语翻译成英语。随着诺姆·乔姆斯基等人物的发展语言学,这些机器的目标从简单的翻译转向了解码自然语言(即人类语言)处理的原则。

大型语言模型的发展经历了几个阶段,从试图机械化语言的“规则”(如语法),到基于有限数据集测量词组频率的统计方法,再到目前使用神经网络生成流畅语言的模型。然而,底层的概率计算实践一直未变。尽管规模和形式发生了巨大变化,当代AI工具仍然是模式识别的统计系统。

它们被设计用来计算我们如何用语言表达知识、行为或情感等现象,而无需直接接触这些现象。如果你提示像ChatGPT这样的聊天机器人“揭示”这一事实,它会欣然照做。

ChatGPT-5在被问及是否使用统计计算形成其回应时的回答。(OpenAI/ChatGPT/The Conversation)

AI始终在进行计算

那么,为什么我们不轻易认识到这一点呢?

一个主要原因在于公司描述和命名生成式AI工具实践的方式。生成式AI工具不是“计算”,而是被描述为“思考”、“推理”、“搜索”,甚至是“梦想”。

这表明,尽管生成式人工智能在破解人类语言模式的方程上取得了进展,从而获得了我们通过语言传递的价值,但至少目前,它尚未达到这一点。它可以计算出“我”和“你”最有可能与“爱”并列出现,但它既不是“我”(它不是一个人),也不理解“爱”,更不用说你——输入提示的用户了。生成式人工智能始终只是在计算,我们不应将其误认为具有更多能力。米尔科·埃尔丁,科廷大学媒体、创意艺术和社会调查学院讲师。本文经知识共享许可从对话网转载。阅读原文。

(以上内容均由Ai生成)

关键词: Ai统计计算说话

你可能还想读

阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

快速阅读: 12月8日消息,阿里巴巴推出通义千问Qwen3-TTS语音合成模型,支持49种音色、10种语言及9种方言,免费开放每月百万字符额度,并在上海120所中小学试点教育应用。 今日,阿里巴巴正式推出通义千问Qwen3系列新成员——Qw […]

发布时间:2025年12月8日
京东云JoyBuilder千卡训练提速3.5倍

京东云JoyBuilder千卡训练提速3.5倍

快速阅读: 12月8日消息,京东云JoyBuilder平台完成关键升级,支持GR00T N1.5千卡训练,兼容LeRobot框架,训练效率提升3.5倍,亿级数据训练从15小时缩短至22分钟。 日前,京东云JoyBuilder模型开发平台完成 […]

发布时间:2025年12月8日
麦肯锡:AI将取代8亿岗位,同时创造新机遇

麦肯锡:AI将取代8亿岗位,同时创造新机遇

快速阅读: 据麦肯锡全球研究院消息,到2030年全球或有8亿岗位被人工智能取代,同时创造1.3亿至2.3亿新岗位,冲击驾驶、物流、医疗、法律等多个行业,专家呼吁加强再培训与政策应对。 日前,人工智能技术快速发展引发全球关注。加州大学伯克利分 […]

发布时间:2025年12月8日
可灵AI上线主体库,角色跨场景“永不变脸”

可灵AI上线主体库,角色跨场景“永不变脸”

快速阅读: 12月8日消息,快手旗下可灵AI发布“主体库”,为O1视频模型新增长期记忆能力,用户上传单图即可跨场景调用一致角色,主体一致性超96%,并推分级服务与2025年多人功能规划。 今日,快手旗下可灵AI正式发布“主体库”(Subje […]

发布时间:2025年12月8日
n1n.ai 重塑大模型API成本与体验

n1n.ai 重塑大模型API成本与体验

快速阅读: 据最新消息,大模型API平台n1n.ai整合近500种开源与闭源模型,价格低至官方十分之一,响应快、稳定性高,已助企业降本超70%并提升用户满意度。 近日,大模型API服务平台n1n.ai凭借高性价比、高稳定性及丰富模型选择,正 […]

发布时间:2025年12月8日
台积电:十年先进制程功耗降76%

台积电:十年先进制程功耗降76%

快速阅读: 据台积电披露,其从2018年N7到2028年A14制程十年间功耗降低76%,能效提升4.2倍,并推进N3P制程与HBM4E内存集成,强化AI及高性能计算芯片效能。 台积电日前在2025年OIP生态系统论坛欧洲场披露,从2018年 […]

发布时间:2025年12月8日
美国科技未来需投资人才与科研

美国科技未来需投资人才与科研

快速阅读: 据最新消息,美国政府拟持股英特尔10%,以强化半导体战略,但专家强调需同步加大基础科研投入并解决STEM人才短缺,方能维系科技领先地位。 近日,美国政府宣布将持有英特尔公司10%的股权,引发广泛关注。此举被视为对本国半导体制造业 […]

发布时间:2025年12月8日
康宁押注AI数据中心光纤需求激增

康宁押注AI数据中心光纤需求激增

快速阅读: 据康宁公司介绍,AI数据中心加速转向光纤互联,单节点集成72颗GPU,布线长达两英里;因算力激增与带宽需求,光通信将推动AI硬件生态结构性变革,市场或扩至三倍。 近日,人工智能硬件基础设施加速升级,数据中心内部连接技术正经历重要 […]

发布时间:2025年12月8日