作者 | 張睿
編輯 | 志豪
理想汽車自動駕駛團隊 5 篇論文被世界頂級學術會議錄用!包含世界模型、端到端規劃模型等方面。
車東西 6 月 30 日消息,近日,理想汽車宣布其自動駕駛團隊有 5 篇論文中稿 ICCV 2025。
計算機視覺國際大會(ICCV,International Conference on Computer Vision)是計算機領域世界頂級的學術會議之一,每兩年舉辦一屆,和 CVPR、ECCV 并稱計算機視覺三大頂級會議。
而 2025 年 ICCV 大會共收到了 11239 份有效投稿,為歷史最多,這些投稿經過評審后接受 2698 篇論文,接受率為 24%,由此可以看出理想汽車此次多篇論文中稿 ICCV 的含金量。
理想汽車 CEO 李想也在社交媒體上發文表示:" 如果大家對 ICCV 論文含金量不太理解,可以類比醫學界的《柳葉刀》論文,每一篇都能代表世界級的‘學術金牌’。"
此外,李想還提到,除理想汽車自動駕駛團隊中稿的 5 篇論文外,理想汽車基座模型團隊還有 3 篇論文中稿,一共 8 篇論文被 ICCV 2025 錄用。
01.
Hierarchy UGP:
用于大規模動態場景重建的層次化統一高斯基元
目前,理想汽車自動駕駛團隊中稿的 5 篇論文中,名為《Hierarchy UGP》的論文已經公開,這篇論文的是理想汽車與浙江大學合作在世界模型方面的進展。
在署名作者中可以看到,理想汽車智能駕駛高級算法專家詹錕、理想汽車高級算法工程師王一達的名字出現了論文署名中。
論文中表示,近年來可微渲染技術的進步顯著提升了動態街景重建的效果。然而,大規模場景和動態元素(如車輛和行人)的復雜性仍是重大挑戰,現有方法通常難以擴展到大型場景或準確建模任意動態。
為解決這些限制,研究者提出 Hierarchy UGP,其構建了由根層級、子場景層級和基元層級組成的層次結構,并使用在四維空間中定義的統一高斯基元(UGP)作為表示,實現動態靜態長達 1km 的重建能力。
具體來看,Hierarchy UGP 的三層分層結構如下:
1. Root Level(根層):管理整個場景的結構,是渲染和優化的入口。
2. Sub-scenes Level(子場景層):將大規模場景按空間劃分為多個子場景,分別建模天空、背景、剛體和非剛體對象。
3. Primitive Level(基元層):使用定義在四維時空中的統一高斯基元(UGP)對每個元素進行建模。
根層級作為層次結構的入口點。在子場景層級,場景在空間上被劃分為多個子場景,并提取各種元素。在基元層級,每個元素通過 UGP 建模,其全局位姿由與時間相關的運動先驗控制。
這種層次化設計極大增強了模型的能力,使其能夠建模大規模場景。此外,UGP 允許同時重建剛性和非剛性動態。
四維高斯建模 UGP 在三維空間基礎上引入時間維度,能夠自然表達對象的動態變化,尤其適用于非剛體建模。
層次細節控制(LOD)通過圖像平面投影尺寸選擇渲染基元,提升渲染效率,實現實時渲染。
子場景并行優化采用 " 塊級對象訓練策略 ",避免跨子場景動態對象的干擾,通過 " 時間尺度初始化 " 提升大幅運動區域的擬合精度。
虛擬視圖監督在新視角合成任務中引入虛擬視圖監督,有效提升外推質量。
在實驗結果方面,研究者在專有大規模動態街景數據集 Dynamic City 以及公開的 Waymo 數據集上進行了實驗。
Dynamic City 數據集是包含以 10 Hz 頻率捕獲的圖像和雷達數據序列,覆蓋 600 米至 1 公里以上的街景。
與 Waymo 和 PandaSet 等公開數據集相比,Dynamic City 數據集包含更廣泛的街景,研究者將該數據集作為開源資源發布,以推進大規模動態街景重建的研究。
為證明算法的有效性并確保公平比較,研究者進行了兩個實驗:一個使用大規模動態場景,另一個使用從大規模場景中提取的子場景。
下圖中的的表格和圖片結果表明,對于插值任務,Hierarchy UGP 在大規模動態場景和較小的子場景中均始終優于現有方法。
此外,通過集成 LOD 技術和基于 gsplat 的工程增強,Hierarchy UGP 實現了大規模動態場景的實時渲染。
對于外推任務,Hierarchy UGP 顯著優于所有其他基線方法。這一改進主要歸因于虛擬扭曲視圖的監督。
Waymo 數據集是一個真實世界數據集,包含在實際道路上收集的數千個駕駛片段,每個片段包含以 10Hz 采樣的 20 秒傳感器數據。
下圖中圖片的定性結果表明,Hierarchy UGP 在重建方面優于其他方法。
具體而言,Hierarchy UGP 在人體物體上實現了顯著更高的視覺指標,突出了其強大的動態元素建模能力,即使在大運動區域也是如此。
此外,結果表明 Hierarchy UGP 和 OmniRe 在測試幀上的視覺質量下降更為明顯。這種下降發生是因為在這些幀中,行人運動完全未知,UGP 和 SMPL 都無法完全捕捉行人的運動,導致性能明顯下降。盡管如此,Hierarchy UGP 仍然與最先進的方法具有競爭力。
最后,研究者們計劃將配套代碼和 Dynamic City 數據集作為開源資源發布,以推動社區內的進一步研究。
02.
共 8 篇論文中稿
含端到端模型、渲染框架等多方面
另外,除了已經公開的《Hierarchy UGP》論文,在 ICCV 2025 中理想汽車自動駕駛團隊還有 4 篇論文中稿。
在端到端規劃模型方面,理想汽車與中國科學院合作的《World4Drive》論文,提出業界首個通過自監督學習實現無需感知標注的端到端規劃模型。
理想汽車與中山大學合作的《RoboPerls》論文,利用 3DGS 構建面向機器人操作的可編輯視頻仿真框架,能夠從示范視頻構建具有照片級真實感、視角一致的仿真環境,支持機器人的數據合成。
理想汽車獨立完成的《HiNeus》論文,提出了一個統一 3D 復雜渲染框架,通過三項基礎創新同時解決多視角輻射不一致性、增強低紋理表面恢復并保留精細結構細節。
理想汽車與悉尼科技大學合作的《3D RealCar》論文,提出大規模真實三維車輛數據集 3D RealCar,具備海量數據、高品質、高多樣性等特性,將有力促進三維車輛識別與重建技術的發展。
除理想汽車自動駕駛團隊的論文外,理想汽車基座模型團隊還有三篇論文被 ICCV 2025 錄用。
理想汽車與中國科學技術大學合作《DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation》,提出大規模高質量人臉視頻數據集 DH-FaceVid-1K,具備多種族、高質量、大容量等特性,可用于訓練多模態數字人臉視頻生成基座大模型。
理想汽車與哈爾濱工業大學合作的《QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation》論文,提出一種全新的圖像定制化微調范式,可適配現有各種生成模型,訓練參數為普通 LoRA 的一半,微調速度更快,并能用于多屬性組合生成等定制化場景。
理想汽車發表的《Twig:Growing a Twig to Accelerate Large Vision-Language Models》論文,提出一種自適應 VLM Token 壓縮 & 推理加速方法,通過分支引導的 Token 剪枝策略 & 自投機解碼策略,自適應地刪除 VLM 模型 LLM 推理階段中和 Query 無關的 Token,全方位提升 prefill & decode 階段的模型計算效率,在長問答 Task 上可實現 1.5 倍的提速。
03.
結語:理想汽車持續投入基礎理論研究
理想汽車此前已在人工智能領域的頂級學術會議和期刊上嶄露頭角。近 3 年,理想汽車圍繞端到端、世界模型、VLA 和基座模型等核心技術,在 AAAI、CVPR、ICRA 等頂級學術平臺發表了近 50 篇論文。
在基礎理論研究過程中,理想汽車在獨立研究之外,還積極與高校展開合作,能夠充分利用高校的科研資源和人才優勢,加速技術研究進程。
而理想汽車能在輔助駕駛、智能座艙等多方面表現出色,離不開其在底層研發的長期投入。