新編輯:LRST【新智元導讀】CVPR新研究MoDES讓多模態大模型推理效率飆升:無需訓練,智能跳過88%冗余專家,仍保留97%性能,徹底打破「跳得多必掉點」舊認知,推理速度提升2倍。多模態大模型正在迅速走向大規模。為了處理更高分辨率圖像、更長視頻序列以及更復雜跨模態任務,模型參數規模持續增長。Mixture-of-Experts(MoE)架構成為主流選擇:通過只激活部分專家網絡,試圖在保持模型規模的同時降低計算開銷。但問題在于——即便采用MoE,多模態模型的推理成本依然很高。每個token仍需與多個專家交互,大量計算發生在「并非真正關鍵」的專家上。MoE的確避免了「全參數全激活」,卻沒有真正做到「按需計算」。在視頻理解或長上下文場景下,這種冗余會被迅速放大,成為推理瓶頸。于是,一個自然問題出現:能否在推理階段動態跳過冗余專家?已有expertskipping方法在純文本LLM上取得了一定效果,但一旦直接應用于多模態模型,往往出現明顯性能下降。
跳得越多,掉點越嚴重,高比例skipping下甚至直接崩潰。來自香港科技大學、北航、北大等單位的研究團隊提出了MoDES(MultimodalDynamicExpertSkipping),系統分析了多模態MoEskipping失效的根本原因,并給出了一套面向多模態MoE的training-free動態專家跳過框架,該工作已被CVPR接收。論文地址:https://arxiv.org/pdf/2511.15690代碼地址:https://github.com/ModelTC/MoDES在Qwen3-VL-MoE-30B上,MoDES在跳過88%專家的情況下,仍保留97.33%原始性能,同時帶來顯著推理加速,打破了一個長期存在的共識:高比例專家跳過必然帶來不可接受的性能損失。
圖表1不同skipping比例下MoDES與現有方法在13個基準上的性能對比MoDES并沒有直接提出新規則,而是首先回答一個更基礎的問題:為什么為文本模型設計的skipping方法,在多模態MoE上會明顯失效?論文給出了兩個關鍵觀察。不同層專家對最終輸出的全局貢獻高度不均衡:現有skipping方法通常僅依據當前層的routing概率判斷專家是否重要,但忽略了一個關鍵事實:不同層專家對最終預測分布的影響差異巨大。實驗表明,當減少routedexperts數量時,淺層專家的減少會導致更顯著的性能下降,而深層專家的影響相對較小。這意味著淺層誤差會在后續層逐步放大,從而引發性能崩潰。換言之,專家的重要性不僅是「局部routing概率」的問題,更是「對最終輸出影響程度」的問題。如果采用層無關的統一規則,很容易在關鍵淺層跳得過多。相關現象如圖表2所示。圖表2不同層范圍減少專家后的性能變化文本token與視覺token行為存在顯著差異:論文進一步分析了模態差異。通過對FFN前后token表征的可視化與統計分析,研究者發現:文本token在FFN中的更新幅度明顯更大;視覺token與專家權重更接近正交;專家對視覺token的影響相對較小。這意味著,專家對文本推理更關鍵,而對視覺token存在更高冗余。如果skipping策略不區分模態,很可能誤刪對文本理解至關重要的專家,導致性能下降。相關分析見圖表3。
圖表3文本與視覺token在FFN中的差異分析這兩個觀察共同指向一個核心結論:多模態MoE的專家重要性,需要同時具備output-aware(輸出感知)與modality-aware(模態感知)。輸出感知+模態感知動態skipping框架基于上述insight,MoDES構建了一個輸出感知、模態感知的動態專家跳過機制,其整體流程如圖表4所示。
圖表4MoDES框架圖首先,MoDES在原始routing概率基礎上引入層級全局重要性因子,用于刻畫第l層專家對最終輸出分布的整體影響。該因子通過離線校準獲得,即比較移除該層專家前后模型輸出分布的差異,從而量化該層專家的全局貢獻。新的專家重要性分數由局部routing概率與全局因子共同決定。
這樣一來,淺層專家會被更保守地保留,而深層專家可以更激進地跳過,實現真正的output-awareskipping。其次,MoDES引入雙模態閾值機制,為文本token與視覺token分別設定不同的skipping閾值。通過模態區分,使專家跳過決策更加精細化,避免誤刪關鍵專家。最后,為高效尋找最優閾值組合,MoDES設計了frontiersearch算法,利用性能與skipping比例之間的單調性,將搜索復雜度從降為,在保證結果一致性的同時將搜索時間縮短約45倍。
圖表5校準與搜索時間對比實驗結果在主實驗中,QVGen在W4A4/W3A3在大規模實驗中,MoDES在多個主流多模態MoE模型上進行了系統評估。在Kimi-VL-A3B-Instruct上,當跳過83%專家時,多數現有expertskipping方法平均性能下降超過11%,而MoDES仍然保留96.25%原始性能(見圖表6)。這一結果說明,高比例skipping并不必然導致性能崩潰,只要專家的重要性建模足夠準確,冗余專家可以被有效識別。在更大規模的Qwen3-VL-MoE-30B-A3B-Instruct上,MoDES的優勢更加明顯。在跳過88%專家的條件下,MC-MoE僅保留86.66%性能,DiEP保留85.30%,而MoDES仍然能夠保留97.33%原始性能(見圖表7)。在13個圖像與視頻理解基準上,MoDES均取得最優或接近最優表現。
圖表6Kimi-VL不同skipping比例性能對比圖表7跨backbone性能對比這一結果表明,高比例skipping并非不可行,關鍵在于是否能夠正確建模專家對最終輸出的全局貢獻以及不同模態token的行為差異。推理效率與量化兼容性在實際推理測試中,MoDES在H200GPU上實現了顯著加速。在Prefill階段獲得約2×加速,在Decoding階段仍有約1.2×提升(見圖表8)。由于MoDES為training-free方法,推理階段不引入額外計算開銷,因此加速效果更加穩定。此外,MoDES與混合精度量化具有良好兼容性。在低比特量化條件下仍能保持較高性能,說明skipping與量化可以從結構與數值兩個層面形成互補,共同降低多模態MoE的計算成本。
圖表8推理速度對比。(上)Qwen3-VL;(下)Kimi-VL。總結MoDES的核心貢獻在于:提出了一種真正output-aware、modality-aware的多模態專家跳過機制。通過顯式建模不同層專家對最終輸出分布的全局貢獻,以及不同模態token在專家網絡中的更新特性,MoDES證明了一件重要的事情:即便跳過80%以上的專家,只要跳得足夠「聰明」,模型性能依然可以穩定保持。在多模態模型規模持續擴大的背景下,這種基于輸出影響建模的skipping思路,為大模型推理效率優化提供了一條更加穩健且可落地的路徑。
參考資料:https://arxiv.org/pdf/2511.15690