慌了，人类司机未来将遭“VLA挑战”

快速阅读: 近期，理想i8和小鹏P7两款新车推出，均搭载VLA（视觉-语言-动作模型），实现智能辅助驾驶。VLA通过视觉感知、语言理解和动作决策，提升驾驶安全性和平顺性，推动智能驾驶向“类人化”发展。

近期,车市两款重磅新车,赚足了眼球。其一是理想i8,其二是小鹏P7,虽然二者定位不同,但都是各自领域的明星。

在众多的功能覆盖下,两款车都提到了一项核心技术,那就是VLA,它是智能辅助驾驶的底层逻辑。

理想汽车表示,他们的辅助驾驶研发从人工时代,进入AI时代。在2021年到2024年,理想一直基于规则算法来实现,2024年开始,理想的辅助驾驶进入到AI时代。

如今通过VLA,车主甚至可以通过语音指令,控制车辆,系统也会根据用户驾驶风格,去学习进化,实现类人的驾驶感受。

小鹏汽车最近也透露,VLA车端大模型的研发进展顺利,预计可能提前到8月份推送到所有车型上,而全新小鹏P7无疑将会搭载VLA大模型,成为更安全的“司机”。

01 什么是VLA? VLA全称“Vision-Language-Action”,即视觉-语言-动作模型,核心是将视觉感知、语言理解、动作决策,三合一。

其中视觉感知,就是对摄像头、激光雷达等硬件采集的信息进行识别,包括道路状况、交通标志、其他车辆和行人的位置等。

这些数据被输入到视觉处理模块,利用深度学习算法,对图像进行提取和分析,转化为计算机能够理解的“语言”。

这样它就能够认出交通信号灯,判断出旁边车辆的速度和方向,以及检测路边的行人。

语言理解,就是通过大模型训练,理解指令、交通规则或高层策略。此外,通过一个中间环节,将视觉和语言模型进行融合,构建统一的环境理解。

如果乘客发出“在前方路口右转”的指令,VLA模型会先理解这个语言信息,然后将其与当前的视觉感知信息进行融合。

最后,动作决策生成具体的控制指令,如加速、减速、转向信号等,被发送到车辆的执行系统。这些指令,可以精确的控制油门、刹车、方向盘等部件,实现车辆的智能行驶。

VLA实现了“图像输入、指令输出”的闭环,相对于传统的感知、规划、控制独立分工,它们在一个系统中完成,提高了场景适应性。

在VLA之前,大多采用“端到端+VLM”架构,其中VLM是(Vision-Language Model),在智能驾驶领域,试图理解交通场景以及语义解析。比如识别“潮汐车道”、“施工绕行”、分析“如无保护左转”等复杂语境,使系统从“看清”到“看懂”。“端到端”则负责处理感知、决策和执行,两者相对独立。

VLA将来自VLM或其他感知模块的理解,与车辆的转向、加速、制动等指令深度结合,直接从输入到输出“一条龙”完成。

02 具体场景是什么? 比如在复杂道路情况下,车辆会同时遇到各种交通参与者,包括机动车、行人、自行车,还有随时变化的交通信号灯、复杂的交通标志。

VLA模型通过摄像头和雷达,“读取”到这些信息后,快速分析场景。如果遇到有人正在过马路,同时交通信号灯还有10秒变红,系统会去理解、判断,根据实际情况决策。它可能会立即减速停车,等待行人通过,放弃此次通行机会;也有可能选择避让行人,快速通过绿灯。

这种拟人化的思考逻辑,正是VLA模型的最大优势,它的泛化场景能力与上下文推理能力更强。此外,融入语言理解后,VLA可以根据指令灵活调整驾驶策略,实现人机协同的体验。

总结来说, VLA上车后可以带来多项明显的提升。包括防御驾驶,车辆可以自动分析道路上的潜在风险,避免事故发生;平稳驾驶,车辆在加减速,超车过程中,没有明显顿挫;三点掉头,在狭窄空间,通过前进—后退—再前进,三次方向调整完成180度转向。在端到端没法实现的功能,在VLA里可以实现;连续任务,可以和VLA连续沟通多个驾驶指令,车辆会自动逐个执行指令;地库行驶,在小区地库和商场停车,车辆可以自动识别车场的标志,按照标志完成驾驶行为。

03 VLA的心理学依据智能驾驶感知通过雷达、激光雷达、摄像头检测,又进行图像、语义分析,从而制定行为规划,最终下发指令到方向盘、油门等。

这一套流程看似复杂,实际从心理学角度来看,条理清晰,也完全符合人类认知世界、支配行为的过程。

人的普通心理,最重要和基础的一部分就是信息加工,它分为感知觉、意识、思维、语言,而语言就是一种行为,受意识的控制。

人类在认识世界时,第一步是感觉输入,把看到的、听到的,映射到大脑,这时你并不知道看见的是什么,而只是在视网膜上有映像。通过知觉系统,以及知识经验,将它转化为“苹果、香蕉、梨”等不同事物。

随后进行意识和思维的深层加工,指导你做出不同的决策。最终通过手、脚等器官,用实际行动展现出来。

而链接我们整个机能系统的,是神经网络,尤其是脑的神经网络,它以电信号传递,几乎在一瞬间完成,所以我们觉察不到,甚至认为这是一步完成的。

这样看来,人类大脑是多么的强大,当我们看到交叉路口,熙攘的人群,几乎下意识就能做出判断,知道用何种方式通过;当我们看到半个探出的脚步,就会预判他有窜出的可能。

VLA就是要达到这种效果,它背后的逻辑与人类认知世界具有相似性,也为智能驾驶技术发展提供了参考视角。

04 结语 VLA的出现,标志着智能驾驶从功能叠加,到认知融合,某种意义上可以去“理解”开车这件事。它尝试在冰冷的机器中,复刻人类如何感知世界,将视觉的“看见”、语言的“理解”与动作的“执行”编成一个有机整体。

这不仅仅是效率的提升,更是智能驾驶体验向“类人化”的改变,人机协同的边界将被重新改写,也是机械执行迈向认知智能的跃迁。

当然,目前VLA还并不完善,其芯片算力之殇,是当前最致命的瓶颈之一,当前主流高算力芯片,都不是为运行如此庞大的AI模型而设计,不过这也意味着它的突破点清晰,随着技术提升,将有更大进步空间。

本文来自微信公众号 “有驾” ,作者:任宏斌,36氪经授权发布。