如果一個技術用 3 年時間,從默默無聞到改變世界,我們稱其為第 N 次工業革命;
如果這個技術從論文到落地的過程中,頭部玩家如走馬燈更迭,百億流量砸下去只聽一聲響就陷入沉寂,我們稱其為資本絞肉機;
如果這個技術集齊了以上所有特質,還能以常規技術乘十的速度進化,讓互聯網時代的生態護城河、資金壁壘、規模效應全部失效,創業公司也能站在世界舞臺中心,那么,它是大模型。
而這一趨勢,自今年年初 DeepSeek" 掀桌 " 以來,變得尤為明顯。時至今日,在大模型行業,能留在桌子上的企業唯一的生存法則就是——創新至上。
那么,如何理解大模型行業的創新至上?為什么傳統互聯網的玩法在大模型時代會徹底失效?為什么大模型的淘汰,能以季度為單位發生?
剛剛結束的 MiniMax Week,或許正是我們審視這些問題的最佳切入點。
以此為切口,你會看見一個創新行業的創業公司如何掙脫巨頭的射程;可以看到大模型從技術創新到改變世界之間的橋梁如何搭建;以及,一群 " 偏執 " 的人,如何在這個一切被按下加速鍵的行業中破浪前行。
一開始,MiniMax Week 的關注度,還局限在大模型行業內的討論:這次 MiniMax 會拿到多少 SOTA(State of the Art)成績。
直到全球社交網站上,橘貓、奶牛、三花,各式各樣的貓咪跳水視頻開始像病毒一樣蔓延;緊隨其后,羊駝、熊貓、長頸鹿,也在視頻中以空中 3 周半回旋、后空翻等姿勢從十米高臺一躍而下。甚至,在視頻中,你還會看到不同體重的動物起跳時,會對應不同的跳板的震動幅度與水花大小差異。
就像年初的 DeepSeek R1 發布一樣,MiniMax 迎來了自己的 "Aha 時刻 "。
"Aha Moment" 源自心理學與產品設計領域,指的是用戶在使用一個產品或工具時,突然意識到其價值和潛力的那個瞬間。它往往伴隨著一種頓悟、驚喜或認知飛躍的感覺。
在其背后,往往是技術發展從量變到質變的關鍵突破;緊隨其后,則往往是產品滲透率大突破,以及行業大規模爆發轉折節點的到來。
而貓咪跳水,之所以被稱為視頻 AI 的 Aha Moment,除了其在社媒上引發的轟動之外,更在于長久以來,跳水、體操、多人交互這樣的復雜動作,長期以來一直被視為視頻 AI 的 " 圖靈測試 "。
因為這些動作不僅要求 AI 精確控制每一幀畫面,同時,所有連續幀組成的運動時空軌跡如姿勢變化、跳躍旋轉角度、速度等細節必須符合現實的重力、慣性等物理規律;甚至,不同動物起跳對應的跳板振幅與不同入水姿勢帶來的水花角度等復雜環境交互,也必須精準還原現實。
而這一切的背后,正是因為 MiniMax 最新發布的視頻模型—— Hailuo 02。
縱向對比,Hailuo 02 模型參數相較 Hailuo 01 增長 3 倍,視頻分辨率提升至原生 1080P,能實現單次生成 10 秒的高清內容,涵蓋精細肢體動作、流體動力學模擬、鏡面效果與真實物理交互,甚至可還原雜技演出級別的復雜動態,并給出專業級的原生運鏡。
橫向對比,Hailuo 02 在 Artificial Analysis Video Arena 的 Image-to-Video 榜單中,位列全球第二。與此同時,Hailuo 02 在性能超過 Google Veo3 的情況下,其 API 成本卻只有 Google Veo3 的 1/9。
那么,為什么 Hailuo 02 能在保持高逼真度的同時,還能保持低成本?
一方面是 scaling law 的助推:Hailuo 02 模型的總參數量相較于 Hailuo 01 擴大了 3 倍,數據量擴大了 4 倍,使得模型能夠理解更加復雜的指令和物理場景。
與此同時,Hailuo 02 還采用了創新的 NCR(Noise-aware Compute Redistribution)架構。這一架構通過噪聲感知機制,將計算資源按照需求分配給不同的區域。高噪聲區域的信息密度較低,進行壓縮處理;低噪聲區域則分配更多的計算資源,重點捕捉關鍵細節,進而有效減少 HBM 內存讀寫量逾 70%,讓訓練與推理效率提升 2.5 倍。
當然,這種將精力放在對的事情上、不斷創新的邏輯,不只是 NCR 的底層技術思路,同時也是對 MiniMax 企業氣質,以及如今地位如何煉成的最好概括。
去年的同一時間,讓無數大模型創業者們最頭疼的問題之一,一定包括:
巨頭的每一次轉身,都是中小企業的生死考驗。那么你如何逃脫巨頭的資本萬有引力?
不僅合作伙伴關心,但凡公開場合,媒體、投資人也一定會反復追問。
形勢看起來的確嚴峻:國內外幾乎所有互聯網巨頭、科技巨頭全數下場大模型,百模大戰之激烈,一度讓人以為要復刻當年共享單車、外賣的老路。
質疑的原因似乎也講得通:大模型參數已經走到萬億關口,無論訓練還是推理都需要足夠的資本壁壘;大模型進化需要依賴海量數據,而巨頭恰好有足夠的數據資源;大模型研發需要高密度的人才,大廠的優渥資源,看似也足以支撐其挖來任何想要的人才。
但現實卻是:僅僅一年時間過去,百模大戰便進入偃旗息鼓階段;各種榜單的 SOTA 也被 Open AI、Anthropic、MiniMax、DeepSeek 這樣的創業公司占據了大半。
邏輯很簡單,大量的資本投入,只是模型訓練的條件之一。但做大模型如投資,一個技術路線越是共識程度高,就越說明這已經是個滯后變量,企業必須不斷挖掘新的有效的 Alpha,才能帶來超額的回報。而在這一方面,更加靈活的創業公司,相比傳統巨頭,往往有著更加敏銳的嗅覺與更高效的決策鏈條。
具體到 MiniMax,市場層面,僅去年前 8 個月,其海外產品 Talkie 的全球下載量就快速突破千萬次,超過 Character AI,成為美國市場下載量第 4 的人工智能應用。英國《金融時報》報道稱,MiniMax2024 年的營收,在 7000 萬美元左右。
技術層面,剛剛在專業大模型基準測試 Artificial Analysis 榜單中拿下全球前二成績的 MiniMax M1 模型同樣是很好的例證。這是一個擁有 4560 億參數的大模型,除了在業內主流的 17 個評測集位列前茅之外,M1 還是全球上下文最長的推理模型,原生支持 100 萬 token 輸入長度,是 DeepSeek R1 的 8 倍;并且支持 8 萬個輸出 token,打破了 Gemini 2.5 Pro 的 6.4 萬個限制,成為世界最長輸出的模型。
與此同時,在工具使用場景(TAU-bench)中,MiniMax-M1-40k 更是領跑所有開源權重模型,甚至超過閉源模型 Gemini-2.5 Pro。數據顯示,即使在 30 多輪長鏈路思考與工具調用任務中,MiniMax-M1-40k 依然有極高的穩定性。
答案一是 M1 在架構上的創新。
與業內常規做法一樣,M1 也是在預訓練的基座模型(MiniMax-Text-01)上進行強化學習后構建而成,同樣采用了混合專家結構(MoE)。但鮮少有人知道,早在 2023 年前后,MoE 尚未成為行業共識的時候,MiniMax 就已經推出了國內首個 MoE 大模型。
也是在同一時期,在同行還普遍采用傳統 Transformer 的自注意力計算機制時,MiniMax 就已經開啟了對混合注意力機制的探索,并在其后將這一技術用于 M1 模型。所謂混合注意力機制,就是 1/8 使用自注意力機制,另外 7/8 使用了自創的 Lightning Attention(線性注意力),通過先做 " 分塊計算 "(tiling),塊內用傳統注意力計算,塊間采用線性注意力進行信息傳遞,最終完成全局語義捕捉的方式,避免了累積求和操作(cumsum)拖慢速度。這也是更長上下文窗口的底層技術支撐。
除了架構的創新,在訓練方法上,MiniMax M1 還采用 CISPO(Clipped IS-weight Policy Optimization)替代傳統的 PPO(近端策略優化)/GRPO(deepseek 開發的近端策略優化),極大壓縮成本,提升訓練效率。
傳統的 PPO/GRPO 算法在處理混合架構時會直接忽略 However、Wait、Aha 之類的重要性很高但是頻率較低的 token,或者只給他們很低的權重。導致模型的復雜推理出現邏輯混亂等問題。而 MiniMax 的 CISPO 算法,會根據 token 的重要性對其進行采樣、裁剪,賦予權重,讓長響應除了長度之外,更有質量。
推理側,生成 10 萬 token 時,M1 的推理算力也只需要 DeepSeek R1 的 25%,而且 M1 模型在數學和編程等任務上比 DeepSeek-R1 模型還要高效。
也就是說,對 MiniMax 而言,大模型的確是個燒錢的事業,但只要一腳邁過門檻,產業真正比拼的還是誰更能通過技術創新省錢,讓技術更加普惠,且帶來更高的上限。
事實上,如果將目光拉長到最近十年,會發現,這已經是第二次 AI 浪潮,上一波以 AlexNet+Alpha Go 點燃的 AI 大爆發中,AI 的落地始終沒有逃出視覺識別、NLP 的范疇,最終陷入短暫低谷。
但大模型不同,其通用能力帶來了更高的商業化天花板,也讓技術的生命周期,被無限拉長。
最近兩年,行業的 Aha 時刻,大致可以分為兩種類型。一種是底層大模型的能力技術創新:比如一開始的 ChatGPT,比如年初的 DeepSeek。
而在大模型創新基礎之上,是另一種橫向的 Agent 應用創新,其典型代表比如 cursor、lovart、manus。
因為 Agent 的優勢之一,就是可以通過多步操作集成達成更直觀可用的結果。而一個驚艷的成果展示,往往就是一個技術從實驗室到產業加速的重要轉折點,這次出圈的 Hailuo Video Agent 也如此。
比起一般的視頻生成,Hailuo Agent 操作更簡單,同時效果更可控,可以一鍵生成全片。不只是小貓跳水,羊駝跳水,甚至復雜體操動作,Hailuo Video Agent 都能搞定。目前階段 Hailuo Video Agent 已經支持超百種視頻模板,涵蓋藝術片、廣告片、MV、社媒爆款等多種體裁。這也意味著 AI 徹底打通了創意構思、分鏡設計、圖片素材生成、剪輯完整視頻的生產鏈路。
根據 AI 產品榜數據,自上線以來,海螺 AI 連續 6 個月在全球榜單中位居視頻生成 AI 產品的第一,力壓 Sora、Runway 等國內外 AI 視頻產品。
當然,Agent 的另一個優勢是通過集成多種工具、能力,帶著目的(用戶發出的需求)自主規劃路徑并執行,從而自主幫人類解決復雜專業問題,更通用的 MiniMax Agent 就是代表。
相比視頻生成效果驚艷的 Hailuo Video Agent,MiniMax Agent 的定位更像是一個具備長期任務規劃與執行閉環任務能力的 AI 專家,可以幫助 AI 完成從 "Chatbot" 向 " 專業生產力引擎 " 的質變升級。具體來說,MiniMax Agent 是個能完成長程(Long Horizon)復雜任務的通用智能體。能多步規劃出專家級解決方案、靈活拆解任務需求、執行多個子任務從而交付最終結果。
據官方數據,MiniMax Agent 在 MiniMax 內部已經使用了近 60 天,并成為超過 50% 的員工日常 PPT 制作、網頁搭建、代碼輔助使用的產品。
相比普通功能單一的 Agent,MiniMax Agent 能在編程上生成包含復雜跳轉邏輯、通過全面測試且沒有 bug 的網頁;在多模態方面除了支持長文本文件,也支持視頻、音頻、圖片等理解能力,同時支持生成圖文音并茂的作品;還能通過 MCP 擴展、來完成做動畫、廣告片、PPT 等任務 ……
可以說,MiniMax 的通用 Agent,是 MiniMax 大模型基礎智能,與跨模態能力結合起來的最強工程化能力落地。而 MiniMax 幾乎也是唯一一家能夠提供完整全模態能力的廠商。
當然,可能也有人會質疑,大模型公司做 Agent 的意義是什么?
擁有基座模型研發能力的大模型公司在開發通用 Agent 上有著天然的優勢:憑借對底層架構的深入把控,其 Agent 能在性能優化、成本控制、生態構建形成閉環優勢,從而主導開發出更強大、適應性更強的通用 Agent。
一句話概括就是:大模型的創新,打開了 Agent 的能力天花板;Agent 的快速增長,讓大模型的演進方向更加清晰明確。兩者就像下坡路上的滾雪球,互相借力,就能事半功倍,將生態越做越大。
如果說大模型行業是一個時間、資本、創新、知識密度一切被極度壓縮的全新物種,那么身處其中,MiniMax 仍然可以算得上是一家 " 特立獨行 " 的存在。
MiniMax 早在 2022 年初就成立了——比 2022 年底 ChatGPT 引爆全球還要早上一年。這也導致當年 ChatGPT 突然爆火之后,所有人都在四處打聽這個 MiniMax 到底是何方神圣。
在技術路徑上,MiniMax 也同樣敢為人先。
2023 年,彼時國內市場還是 Dense(稠密)模型的天下,MiniMax 卻將 80% 以上的算力和資源全部投入 MoE(混合專家)模型的開發中,于 2024 年初推出了國內第一個 MoE 大模型,成為共識引領者。
今年 1 月,MiniMax 又開源了籌謀已久的 Lightning Attention 閃電注意力技術,對著 Transformer 架構進行了一頓大刀闊斧的 " 爆改 ",挖掘大模型突破天花板的新 Alpha 因子。
到了 6 月,MiniMax 拿出的 M1 已經憑借 100 萬上下文窗口、算力成本暴降 70%,以及架構、算法的一系列創新,閃電拿下開源模型全球第二寶座(數據來源 Artificial Analysis Intelligence Index 榜單,排名截至目前)。
而與 M1 同期發布的 MiniMax 通用 Agent,也已經能夠解決當下無數 Agent 應用備受困擾的跨模態、長距離(多決策)、任務拆解、工具調用難題,完成了從工具到全能助理的進化。
這似乎是一家永遠不知疲倦,永遠在顛覆自我,永遠在探索更高上限、更高智能水平的 AI 公司。
而這種近乎偏執的創新驅動,本質上是對 AI 大模型競賽終局的預判,偉大商業模式往往是直白甚至淺顯的—— all in 技術創新,然后堅定不移地執行。