36 氪獲悉,近日,國際頂級會議 ICCV 2025(計算機視覺國際大會)公布論文錄用結(jié)果,格靈深瞳共有 6 篇論文入選,成果涉及視覺基座模型、人臉 3D 重建、文檔幾何校正、人體動作生成、魯棒三維重建等多個視覺 AI 研究關鍵方向。在視覺基座模型方面,格靈深瞳與華為諾亞研究院合作的論文入選。該成果通過引入?yún)^(qū)域 Transformer 層和高效的區(qū)域聚類判別損失,有效提升視覺模型對局部區(qū)域信息的感知與表達能力,使其在 OCR、目標檢測和分割等密集視覺任務中表現(xiàn)突出。
36氪
31分鐘前