文 | 極智 GeeTech
當 AI 具備自主意識,也就實現了從 " 能干活 " 到 " 會做事 " 的轉變。
近日,Gemini 家族迎來一個新成員—— Gemini Robotics On-Device。這是谷歌 DeepMind 首個可以直接部署在機器人上的視覺 - 語言 - 動作模型(Vision-Language-Action,VLA)。該模型運行時無需依賴數據網絡,可以完全在機器人設備本地離線運行,并在多種測試場景中實現了強大的視覺、語義和行為泛化能力,能理解自然語言指令,并完成拉開拉鏈、折疊衣物等高靈巧度任務。
作為機器智能領域的關鍵新范式,VLA 不僅讓機器人擁有了將語言意圖、視覺感知與物理動作編織成連續決策流的能力,也成為當下輔助駕駛提升智能化水平的重要技術之一。
去年以來,谷歌、微軟、Figure AI 等海外公司以及銀河通用、智元機器人、理想汽車、小鵬汽車等國內具身智能和車企均發布了自己的 VLA 模型,這項技術成為具身智能和智能輔助駕駛領域的關鍵性研究之一。
VLM 走向 VLA
VLA 模型最早由 DeepMind 提出并應用在機器人領域,旨在解決 " 視覺 - 語言 - 動作 " 三者協同的智能體控制問題。
2023 年 7 月,谷歌 DeepMind 推出了全球首個控制機器人的 VLA 模型—— RT-2。相比傳統的機器人模型只能支持少數的特定指令,RT-2 借助于大語言模型強大的語言理解能力,可以直接和用戶進行語言交互,并在接收攝像頭的原始數據和語言指令后,直接輸出控制信號,完成各種復雜的操作和各類任務。
VLA 在機器人領域的成功,很快也應用到了自動駕駛領域。2024 年 10 月底,谷歌旗下自動駕駛公司 Waymo 推出了一個基于端到端的自動駕駛多模態模型—— EMMA。
EMMA 建立在多模態大語言模型 Gemini 之上,將原始攝像頭傳感器數據直接映射到各種特定于駕駛的輸出中,包括規劃者軌跡、感知目標和道路圖元素,通過將所有非傳感器輸入(如導航指令和自車狀態)和輸出(如軌跡和 3D 位置)表示為自然語言文本,最大限度地利用了預訓練的大型語言模型中的世界知識。
從技術路徑看,VLA 是繼 VLM(視覺 - 語言模型)之后的進化形態,被視為端到端大模型 2.0 ——多模態機器學習模型。VLA 融合視覺、語言和行動三種能力,將其統一在一個模型里,只輸入到機器就可執行動作的端到端映射,從而賦予模型強大的 3D 空間理解、邏輯推理和行為生成能力,讓自動駕駛能夠感知、思考和適應環境。
VLA 模型正是在此背景下應運而生,它舍棄了中間的手工設計算法,直接用統一的神經網絡從多模態輸入中學習最優控制策略,借助語言模型理解人類指令并生成可解釋的決策過程,最后將多模態信息轉化為具體的駕駛操作指令,從而簡化了系統架構,提高了數據利用效率。
智能輔助駕駛關鍵跳板
今年,汽車行業的智駕之戰明顯比往年來得更加猛烈。比亞迪的天神之眼、吉利的千里浩瀚、奇瑞的獵鷹智駕,以及廣汽的自動駕駛計劃,這些主流車企的動向都說明了,如今的車圈已經是 " 得智駕者得天下 " 的時代了。
自 2023 年以來,智駕行業掀起 BEV、端到端技術浪潮后,車企們正逐步將 AI 神經網絡融入感知、規劃、控制等環節。比起傳統基于規則的方案,基于 AI、數據驅動的 " 端到端 " 擁有更高能力天花板。
但在端到端模型之外,車企們還輔以了大語言模型、VLM 模型等外掛,提供更強大的環境理解能力,從而提升智駕能力上限。
與此同時,VLA 正在成為重要的一環。VLA 模型擁有更高的場景推理能力與泛化能力,對于智能輔助駕駛技術的演進意義重大。從長遠來看,在從 L2 級輔助駕駛向 L4 級自動駕駛的技術躍遷過程中,VLA 有望成為關鍵跳板。
在提升汽車智能化方面,新勢力車企最為激進。在 NVIDIA GTC 2025 大會上,理想汽車發布了新一代自動駕駛架構—— MindVLA。它通過整合空間智能、語言智能和行為智能,賦予自動駕駛系統以 3D 空間理解能力、邏輯推理能力和行為生成能力,并計劃于 2026 年量產應用。
在 VLA 之前," 端到端 +VLM" 一直是智駕行業主流技術方案。因為駕駛時需要多模態的感知交互系統,用戶的視覺、聽覺以及周圍環境的變化,甚至個人情感的波動,都與駕駛行為密切相關,所以 " 端到端 +VLM" 的技術架構中,端到端系統負責處理感知、決策和執行的全過程,而 VLM 則作為輔助系統,提供對復雜交通場景的理解和語義解析,但兩者相對獨立。
其中,系統 1 即端到端模型,是一種直覺式、快速反應的機制,它直接從傳感器輸入(如攝像頭和激光雷達數據)映射到行駛軌跡輸出,無需中間過程,是 One Model 一體化的模型。系統 2 則是由一個 22 億參數的 VLM 視覺語言大模型實現,它的輸出給到系統 1 綜合形成最終的駕駛決策。
而小鵬汽車將云端模型工廠劃分為四個車間,依次進行模型的預訓練、后訓練、模型蒸餾以及車端部署。理想則選擇了先進行視覺語言基座模型的預訓練,隨后進行模型蒸餾,最后通過駕駛場景數據進行后訓練和強化學習。兩種不同的技術路線帶來了不同的訓練成本與效率,正是這種差異使得兩家車企在市場上形成了強烈的對比。
雖然 " 端到端 +VLM" 大幅提升了智駕水平,但仍有很多問題。比如,端到端和 VLM 要進行聯合訓練比較困難,此外還有對 3D 空間理解不夠、駕駛知識和內存帶寬不足、難以處理人類駕駛的多模態性等問題。
而 VLA 通過統一的大模型架構,將感知、決策、執行無縫串聯,形成 " 圖像輸入 - 語義理解 - 類人決策 - 動作輸出 " 的閉環,可以同步提高智駕的上限和下限,實現空間、行為和語言的統一。
在推理方面,VLA 模型的能力要遠高于 " 端到端 +VLM"。VLA 整合了 VLM 的感知能力和端到端模型的決策能力,還引入了 " 思維鏈 " 技術。這使得它具備了全局上下文理解與類人推理能力,能夠在面對復雜的交通規則、潮汐車道、長時序推理等特殊場景時,像人類駕駛員一樣進行思考和判斷。
例如,在推理時長方面,傳統的基于規則(rule-based)方案只能推理 1 秒鐘的路況信息并做出決策控制;端到端 1.0 階段的系統能夠推理未來 7 秒的路況,而 VLA 模型則能夠對幾十秒的路況進行推理,顯著提升了智能輔助駕駛系統的決策能力和適應性。
正因如此,VLA 被業界認為是端到端 2.0 的主要技術形態。目前,VLA 尚處于發展階段,除 DeepMind 的 RT-2 外,還包括 OpenVLA 模型、Waymo 的 EMMA、Wayve 的 LINGO-2、英偉達 NaVILA 等。這其中,Waymo 的 EMMA 和 Wayve 的 LINGO-2 主要面向的是車載領域,RT-2、OpenVLA 和 NaVILA 則主要面向機器人領域。
下一代輔助駕駛技術基石
VLA 模型工作原理可以分為三個主要步驟:視覺感知、語言理解與決策生成、動作控制,并由多個關鍵模塊支撐上述步驟,包括視覺編碼器、語言編碼器、跨模態融合模塊和動作生成模塊。
視覺編碼器負責從圖像或視頻中提取高層次視覺特征,語言編碼器則處理自然語言輸入,跨模態融合模塊將視覺和語言特征進行整合,而動作生成模塊則根據融合后的信息生成車輛的控制指令。
在視覺感知階段,車輛的攝像頭、雷達等傳感器就像是 VLA 模型的 " 眼睛 ",它們持續收集車輛周圍的視覺信息,包括道路狀況、交通標志、其他車輛和行人的位置等。這些原始數據被輸入到模型的視覺處理模塊,該模塊利用先進的深度學習算法,對圖像進行特征提取和分析,將復雜的視覺場景轉化為計算機能夠理解的特征向量。
例如,它能夠識別出前方的紅色圓形交通信號燈,判斷出旁邊車輛的行駛速度和方向,以及檢測到路邊的行人正在靠近馬路。
語言理解與決策生成階段是 VLA 模型的 " 大腦 " 核心運作部分。當視覺信息被處理后,模型會結合語言指令和自身的知識庫進行分析和推理。
如果乘客發出 " 在前方路口右轉 " 的語音指令,VLA 模型會首先理解這個語言信息,然后將其與當前的視覺感知信息進行融合。
它會分析前方路口的交通狀況,如是否有車輛、行人,信號燈的狀態等,同時考慮交通規則和安全因素,運用 " 思維鏈 " 技術進行類人推理,最終生成合理的駕駛決策。在這個例子中,模型可能會決定在確保安全的情況下,提前減速,打開右轉向燈,并在合適的時機完成右轉動作。
動作控制階段則是 VLA 模型將決策轉化為實際行動的過程。模型生成的駕駛決策,如加速、減速、轉向等指令,會被發送到車輛的執行系統,就像是給車輛的各個 " 器官 " 下達操作命令。
執行系統根據這些指令,精確控制車輛的油門、剎車、方向盤等部件,實現車輛的安全行駛。例如,當模型決定減速時,執行系統會控制剎車系統,逐漸降低車速;當需要轉向時,會精確調整方向盤的角度,確保車輛按照預定的軌跡行駛。
以在城市復雜路況下的駕駛場景為例,VLA 模型的工作過程更加清晰。當車輛行駛在擁擠的市區街道時,道路上可能同時存在各種車輛、行人、自行車,還有隨時變化的交通信號燈和復雜的交通標志。
VLA 模型通過攝像頭和雷達感知到這些信息后,會快速分析場景。如果遇到前方有行人正在過馬路,同時交通信號燈即將變紅,模型會理解這種復雜的情況,并根據語言指令和交通規則進行決策。它可能會決定立即減速停車,等待行人通過馬路并且信號燈變為綠燈后,再繼續行駛。
最重要的是,VLA 的推理過程全程可求導,能夠通過車載顯示向用戶解釋駕駛邏輯,增強用戶信任感。
有行業人士表示,VLA 模型對智駕的演進意義重大,讓端到端理解世界的能力更強后,在 L2 輔助駕駛到 L4 自動駕駛的飛躍中,VLA 可能會成為下一代智能輔助駕駛技術的基石。
但短期內,VLA 從 " 能用 " 到 " 好用 " 還面臨兩大難點。一是車端算力不足,比如理想車端雙 Orin-X 芯片運行 " 端到端 +VLM" 算力已經比較吃緊。而 VLA 的模型結構更復雜,參數也會進一步擴大,對硬件算力和數據閉環的迭代能力要求就更高。
未來具備更強芯片整合能力和垂直整合能力的企業,有望在 VLA 技術的競爭中占據先發優勢。目前行業頭部競爭者如特斯拉、華為、小鵬、理想、Momenta 等都在逐漸走向軟硬一體,針對自研模型定制化開發更匹配的智駕芯片,可以做到最大程度的優化。
另一大挑戰是如何將端到端與多模態大模型的數據與信息作深度融合。這考驗著智駕團隊的模型框架定義能力、模型快速迭代能力。
為了解決上述問題,也正在探索多種技術路徑。如有通過引入可解釋性模塊或后驗可視化工具,對決策過程進行透明化;還有利用 Diffusion 模型對軌跡生成進行優化,確保控制指令的平滑性與穩定性。同時,將 VLA 與傳統規則引擎或模型預測控制(MPC)結合,以混合架構提高安全冗余和系統魯棒性也成為熱門方向。
隨著大模型技術、邊緣計算和車載硬件的持續進步,VLA 有望在智能輔助駕駛領域扮演更加核心的角色,其不僅能為城市復雜道路提供更智能的駕駛方案,還可擴展至車隊協同、遠程遙控及人機交互等多種應用場景。
VLA 模型引發的技術變革正在重塑智能輔助駕駛產業格局,這場變革的終局或許不是某條技術路線的完勝,而是催生出分層市場。當然,VLA 是否能成為智能輔助駕駛的 " 最終歸宿 " 目前尚難定論。從 CNN 到 Transformer,再到 VLM 與 VLA,技術迭代速度令人驚嘆,未來新的突破或許已在醞釀。當軟件定義汽車進入 2.0 時代,真正的較量才剛剛開始。