慌了,人类司机未来将遭“VLA挑战”

发布时间:2025年8月13日    来源:szf
慌了,人类司机未来将遭“VLA挑战”

快速阅读: 近期,理想i8和小鹏P7两款新车推出,均搭载VLA(视觉-语言-动作模型),实现智能辅助驾驶。VLA通过视觉感知、语言理解和动作决策,提升驾驶安全性和平顺性,推动智能驾驶向“类人化”发展。

近期,车市两款重磅新车,赚足了眼球。其一是理想i8,其二是小鹏P7,虽然二者定位不同,但都是各自领域的明星。

在众多的功能覆盖下,两款车都提到了一项核心技术,那就是VLA,它是智能辅助驾驶的底层逻辑。

理想汽车表示,他们的辅助驾驶研发从人工时代,进入AI时代。在2021年到2024年,理想一直基于规则算法来实现,2024年开始,理想的辅助驾驶进入到AI时代。

如今通过VLA,车主甚至可以通过语音指令,控制车辆,系统也会根据用户驾驶风格,去学习进化,实现类人的驾驶感受。

小鹏汽车最近也透露,VLA车端大模型的研发进展顺利,预计可能提前到8月份推送到所有车型上,而全新小鹏P7无疑将会搭载VLA大模型,成为更安全的“司机”。

01 什么是VLA? VLA全称“Vision-Language-Action”,即视觉-语言-动作模型,核心是将视觉感知、语言理解、动作决策,三合一。

其中视觉感知,就是对摄像头、激光雷达等硬件采集的信息进行识别,包括道路状况、交通标志、其他车辆和行人的位置等。

这些数据被输入到视觉处理模块,利用深度学习算法,对图像进行提取和分析,转化为计算机能够理解的“语言”。

这样它就能够认出交通信号灯,判断出旁边车辆的速度和方向,以及检测路边的行人。

语言理解,就是通过大模型训练,理解指令、交通规则或高层策略。此外,通过一个中间环节,将视觉和语言模型进行融合,构建统一的环境理解。

如果乘客发出“在前方路口右转”的指令,VLA模型会先理解这个语言信息,然后将其与当前的视觉感知信息进行融合。

最后,动作决策生成具体的控制指令,如加速、减速、转向信号等,被发送到车辆的执行系统。这些指令,可以精确的控制油门、刹车、方向盘等部件,实现车辆的智能行驶。

VLA实现了“图像输入、指令输出”的闭环,相对于传统的感知、规划、控制独立分工,它们在一个系统中完成,提高了场景适应性。

在VLA之前,大多采用“端到端+VLM”架构,其中VLM是(Vision-Language Model),在智能驾驶领域,试图理解交通场景以及语义解析。比如识别“潮汐车道”、“施工绕行”、分析“如无保护左转”等复杂语境,使系统从“看清”到“看懂”。“端到端”则负责处理感知、决策和执行,两者相对独立。

VLA将来自VLM或其他感知模块的理解,与车辆的转向、加速、制动等指令深度结合,直接从输入到输出“一条龙”完成。

02 具体场景是什么? 比如在复杂道路情况下,车辆会同时遇到各种交通参与者,包括机动车、行人、自行车,还有随时变化的交通信号灯、复杂的交通标志。

VLA模型通过摄像头和雷达,“读取”到这些信息后,快速分析场景。如果遇到有人正在过马路,同时交通信号灯还有10秒变红,系统会去理解、判断,根据实际情况决策。它可能会立即减速停车,等待行人通过,放弃此次通行机会;也有可能选择避让行人,快速通过绿灯。

这种拟人化的思考逻辑,正是VLA模型的最大优势,它的泛化场景能力与上下文推理能力更强。此外,融入语言理解后,VLA可以根据指令灵活调整驾驶策略,实现人机协同的体验。

总结来说, VLA上车后可以带来多项明显的提升。包括防御驾驶,车辆可以自动分析道路上的潜在风险,避免事故发生;平稳驾驶,车辆在加减速,超车过程中,没有明显顿挫;三点掉头,在狭窄空间,通过前进—后退—再前进,三次方向调整完成180度转向。在端到端没法实现的功能,在VLA里可以实现;连续任务,可以和VLA连续沟通多个驾驶指令,车辆会自动逐个执行指令;地库行驶,在小区地库和商场停车,车辆可以自动识别车场的标志,按照标志完成驾驶行为。

03 VLA的心理学依据 智能驾驶感知通过雷达、激光雷达、摄像头检测,又进行图像、语义分析,从而制定行为规划,最终下发指令到方向盘、油门等。

这一套流程看似复杂,实际从心理学角度来看,条理清晰,也完全符合人类认知世界、支配行为的过程。

人的普通心理,最重要和基础的一部分就是信息加工,它分为感知觉、意识、思维、语言,而语言就是一种行为,受意识的控制。

人类在认识世界时,第一步是感觉输入,把看到的、听到的,映射到大脑,这时你并不知道看见的是什么,而只是在视网膜上有映像。通过知觉系统,以及知识经验,将它转化为“苹果、香蕉、梨”等不同事物。

随后进行意识和思维的深层加工,指导你做出不同的决策。最终通过手、脚等器官,用实际行动展现出来。

而链接我们整个机能系统的,是神经网络,尤其是脑的神经网络,它以电信号传递,几乎在一瞬间完成,所以我们觉察不到,甚至认为这是一步完成的。

这样看来,人类大脑是多么的强大,当我们看到交叉路口,熙攘的人群,几乎下意识就能做出判断,知道用何种方式通过;当我们看到半个探出的脚步,就会预判他有窜出的可能。

VLA就是要达到这种效果,它背后的逻辑与人类认知世界具有相似性,也为智能驾驶技术发展提供了参考视角。

04 结语 VLA的出现,标志着智能驾驶从功能叠加,到认知融合,某种意义上可以去“理解”开车这件事。它尝试在冰冷的机器中,复刻人类如何感知世界,将视觉的“看见”、语言的“理解”与动作的“执行”编成一个有机整体。

这不仅仅是效率的提升,更是智能驾驶体验向“类人化”的改变,人机协同的边界将被重新改写,也是机械执行迈向认知智能的跃迁。

当然,目前VLA还并不完善,其芯片算力之殇,是当前最致命的瓶颈之一,当前主流高算力芯片,都不是为运行如此庞大的AI模型而设计,不过这也意味着它的突破点清晰,随着技术提升,将有更大进步空间。

本文来自微信公众号 “有驾” ,作者:任宏斌,36氪经授权发布。

(以上内容均由Ai生成)

你可能还想读

TCS推AI机器狗进军航空业

TCS推AI机器狗进军航空业

快速阅读: 据印度塔塔咨询服务公司(TCS)发布消息称,全球航空航天业加速绿色智能化转型,40%企业预计五年内实现“熄灯工厂”,数字孪生与eVTOL成重点方向,物理AI机器人有望获批用于高危场景。 日前,全球航空航天产业加速向绿色化、智能化 […]

发布时间:2025年12月8日
Meta签约多家媒体,为AI提供实时新闻

Meta签约多家媒体,为AI提供实时新闻

快速阅读: 据媒体报道,Meta与CNN、福克斯新闻等多家国际媒体签署AI数据合作协议,重启付费合作以提升Meta AI在新闻时效性与准确性方面的表现,并引导用户访问合作方网站。 日前,美国科技企业Meta宣布与多家国际新闻机构签署商业人工 […]

发布时间:2025年12月8日
Semaverse推AI平台赋能并购决策

Semaverse推AI平台赋能并购决策

快速阅读: 据最新消息,人工智能初创企业Semaverse近日推出“并购智能基础设施”平台,依托多智能体架构与智能记忆系统,为私募股权基金等提供覆盖交易全周期的五大智能化功能,助力数据驱动决策。 近日,人工智能初创企业Semaverse正式 […]

发布时间:2025年12月8日
Gartner建议全面禁用AI浏览器

Gartner建议全面禁用AI浏览器

快速阅读: 据Gartner发布消息称,AI浏览器存在严重数据安全与隐私风险,其侧边栏功能可能自动上传敏感信息至云端,企业部署前须严格评估后端安全机制并限制高危操作场景。 日前,国际知名研究机构Gartner发布风险警示,指出当前流行的AI […]

发布时间:2025年12月8日
利雅得航空携手IBM打造全球首家AI原生航司

利雅得航空携手IBM打造全球首家AI原生航司

快速阅读: 据最新消息,IBM依托混合云与红帽OpenShift技术,为175国客户提供AI及量子计算等创新方案,加速金融、医疗等关键领域数字化转型,深化本地化服务以提升全球产业链智能化水平。 国际商业机器公司(IBM)日前宣布,其作为全球 […]

发布时间:2025年12月8日
英语国家民众对AI更悲观

英语国家民众对AI更悲观

快速阅读: 据YouGov发布消息称,其2025年8月对九国调查显示,西欧民众对AI态度较积极,英语国家更悲观,就业影响最受担忧,而医疗、办公等领域获普遍认可。 日前,国际民调机构YouGov发布一项涵盖九国的调查报告显示,公众对人工智能( […]

发布时间:2025年12月8日
AI无法替代税务专家的判断与质疑

AI无法替代税务专家的判断与质疑

快速阅读: 12月8日消息,专家警示AI在税务申报中存在合规与伦理风险,强调其无法替代专业判断,呼吁合理界定应用边界,防范不法机构借智能算法诱导激进申报,确保人机协同、合法合规。 近日,有关人工智能在税务申报领域应用的讨论引发关注。专家指出 […]

发布时间:2025年12月8日
德州法学院以伦理先行培养AI时代律师

德州法学院以伦理先行培养AI时代律师

快速阅读: 据彭博法律报道,美国得州多所法学院以伦理为先推动AI审慎融入法律教育,要求明确使用规范并强调人类判断不可替代,呼应州律师协会第705号伦理准则。 近日,美国得克萨斯州在人工智能时代积极探索法律教育的务实路径,强调以伦理为先、审慎 […]

发布时间:2025年12月8日