作者:周源 / 華爾街見聞
6 月 30 日,百度正式開源文心大模型 4.5 系列(ERNIE 4.5),涵蓋 10 款不同參數規模的模型,包括 47B(470 億)、3B(30 億)激活參數的混合專家(MoE)模型及 0.3B(3 億)參數的稠密型模型,預訓練權重與推理代碼均完全開放。
目前,這些模型已可在飛槳星河社區、HuggingFace 等平臺下載,百度智能云千帆大模型平臺也同步提供了 API(應用程序編程接口:Application Programming Interface)服務。
這一動作,延續了科技領域 " 開放協作 " 的傳統脈絡,也為大模型技術的落地提供了新的可能性。
但百度創始人、董事長兼 CEO 李彥宏曾在 2024 年的 WAIC(世界人工智能大會:World Artificial Intelligence Conference)上,認為開源大模型是 " 智商稅 "。
從參數覆蓋到工具適配
百度此次開源的 10 款模型,形成了從 0.3B 到 47B 參數的梯度覆蓋,囊括基礎文本模型和視覺多模態模型(VLM)。除最小的 0.3B 模型外,其余模型都采用異構多模態 MoE(專家混合模型:Mixture of Experts)架構。
對于算力有限的中小開發者,0.3B 參數的稠密型模型可降低部署門檻,MoE 模型則能滿足企業級復雜任務的需求。這種分層供給思路,讓不同資源條件的使用者都能找到適配的工具。
與常規的單模態 MoE 不同,此次百度開源的 ERNIE 4.5 模型是一種異構混合型,也就是通過 " 分而治之 " 策略提升模型性能的人工智能架構:將多個不同類型的專家模塊集成在一起,每個輸入僅激活部分相關的專家模塊,從而在不顯著增加計算量的前提下大幅提升模型容量。
這種架構的核心思想是將復雜任務分解給多個專門的 " 專家模型 "(Expert)處理,再通過門控網絡(Gating Network)動態選擇最優專家或組合專家輸出,從而在保持模型規??煽氐耐瑫r,提升模型的表達能力和效率。
相對而言,文心大模型 4.5 系列的技術特點,集中體現在多模態能力的優化上。
作為原生多模態模型,ERNIE 4.5 對圖像、音視頻的理解能力并非簡單疊加,而是基于異構 MoE 架構實現的模態融合,沒有盲目追求單一指標的突破,而是在文本任務性能穩定的基礎上,逐步增強多模態處理能力。
觀察 ERNIE 4.5 的技術結構可以發現:ERNIE 4.5 的異構 MoE 架構包含文本專家、視覺專家和共享專家三類 FFN 專家。
FFN 專家是指混合專家模型(MoE)中,由前饋神經網絡(Feed-Forward Neural Network)構成的專家模塊。
每個 FFN 專家都可以看作是一個獨立的子模型,能處理特定類型或范圍內的數據。
模型會通過門控網絡或路由機制來確定對于每個輸入 token,應該由哪些 FFN 專家負責處理。
比如在圖像理解中,無論是日常照片還是漫畫圖標,模型都能輸出符合場景邏輯的解讀。這種能力的提升源于對多模態數據關聯性的持續學習,而非孤立的技術堆砌。
眾所周知,英偉達之所以強大,除了 AI 加速卡本身性能出色,也與以 CUDA 適配開發工具生態有緊密關系。
百度也同步推出了 ERNIE 4.5 的配套開發工具:開源完整的開發工具鏈,包括 ERNIEKit 訓練工具和 FastDeploy 推理部署工具,旨在降低開發者使用大模型的門檻,推動多模態 AI 技術的廣泛應用。
這在本質上,也是在踐行 " 工具應當服務于人 " 的技術倫理。
這些工具降低了模型后訓練與部署的技術門檻,使開發者無需深入掌握底層原理,就能基于開源模型做二次開發。
百度此次開源并非孤立動作,早在今年 2 月,百度便公布了文心大模型 4.5 的開源計劃。
從生態構建的角度看,文心大模型 4.5 的開源遵循了 " 技術 - 用戶 - 數據 " 的正向循環邏輯。
生態的價值在于連接而非控制。
百度通過開源將模型的使用權交給開發者,后者基于模型開發的應用會產生新的數據反饋,這些數據又會反哺模型迭代。
比如零售企業用其開發商品圖像識別工具時,積累的行業數據可幫助模型優化對商品特征的捕捉;教育機構的使用則可能提升模型對教學場景的理解,這種分布式的優化過程,比單一企業閉門研發更高效。
考量:平衡共享與可持續
飛槳平臺與文心模型的 " 雙層開源 ",進一步強化了生態的協同性。
飛槳作為底層框架,為模型提供了運行環境;文心模型作為上層應用載體,豐富了框架的使用場景。
此等結構符合美國生物學家馬古利斯提出的 " 內共生理論 " ——不同組件通過互利共生形成更強大的整體。
開發者在飛槳上調試文心模型時,不僅在使用工具,也在參與兩個系統的協同優化,這種深度綁定比單純的技術輸出更能增強生態粘性。
但開源不意味著無邊界的免費。
文心大模型 4.5 采用 Apache 2.0 協議,既允許商業使用,也要求保留原作者信息,這樣的制度設計平衡了共享與權益保護。
實際上,從現實角度出發,清晰的產權界定是協作的前提。
明確的協議條款讓開發者知道可以做什么、不能做什么,避免了技術應用中的法律風險,也為百度保留了商業變現的空間:通過云平臺 API 服務、增值工具等方式實現可持續運營。
從成本角度看,開源是一種 " 分布式研發 " 策略。大模型的訓練與迭代需要持續投入算力與人力,單一企業難以承擔全部成本。
什么是好的管理呢?很簡單,就是讓合適的人做合適的事。
百度將模型開源后,全球開發者的智慧被納入創新體系,有人優化推理速度,有人拓展應用場景。這樣的分工,讓每個參與者都能聚焦自己擅長的領域,間接降低了整體研發成本。
對行業而言,百度的開源模式提供了一種 " 標準化基礎上的差異化創新 " 路徑。
基礎模型的統一,減少了重復研發的浪費;而開發者的二次創新,則能滿足不同行業的個性化需求。
就像制造業側重模型對工業圖紙的理解,傳媒行業則更關注文本生成的流暢性。這是一種 " 共性技術 + 個性應用 " 的模式,基礎技術是基因,行業應用是其在不同環境中的表現型,豐富了技術的生態多樣性。
文心大模型 4.5 的開源,為國內大模型產業提供了一種可參考的發展范式。
不同于閉源模式的黑箱操作,開源讓技術能力變得可觸摸、可驗證。開發者可直接查看模型權重與推理代碼,當模型做出決策時,使用者能追溯其邏輯鏈條,而非被動接受結果。
從全球視角看,此次開源也是國產大模型參與國際協作的一次嘗試。
當前全球大模型領域存在多種發展路徑:有的堅持閉源商用,有的選擇部分開源,有的則完全開放。
文心大模型 4.5 的全量開源,相當于向全球開發者遞出了技術名片,其開放姿態,有助于國產技術融入全球創新網絡,在國際反饋中找準自身定位。
當然,開源并非萬能鑰匙。模型的性能最終仍需在實際應用中檢驗:在工業質檢場景中能否精準識別微小缺陷,在政務服務中能否理解復雜的民生訴求,在教育輔助中能否貼合教學規律:這些真實場景的考驗,比實驗室的評測數據更有說服力。
百度開源文心大模型 4.5 的意義,或許不在于當下的技術突破,而在于其展現的發展思路:在開放中凝聚共識,在協作中解決問題。
當越來越多的開發者參與進來,當模型在更多行業場景中落地,大模型技術才能真正走出實驗室,成為推動社會進步的實用工具,但這一過程沒有捷徑。