清華新聞網11月21日電 近日,清華大學計算機系教授孫茂松、副教授劉知遠、助理研究員韓旭指導的研究團隊與大模型開源社區OpenBMB合作,提出大模型“密度法則”概念,指出大模型的最大“能力密度”隨時間呈指數級增長:2023年2月至2025年4月,大模型最大“能力密度”約每3.5個月翻一番。這意味著每隔3.5個月,即可用一半參數量的模型實現當前最優性能。這一發現為理解大模型發展規律提供了新的視角,揭示了大模型高效化發展的內在趨勢。
自2020年以來,大模型在尺度定律(Scaling Law)的指導下,不斷增加訓練數據和模型參數的規模,在自然語言理解、生成和推理任務上取得了顯著的能力提升。這推動了一系列參數量超過千億的超大規模模型的涌現。然而,隨著訓練規模的膨脹,大模型訓練和推理成本急劇上升。一方面,公開可用數據的增長難以匹配模型需求的指數級擴張;另一方面,計算資源和能源消耗成為大模型訓練與部署的瓶頸。為應對這些挑戰,研究者亟需探索大模型的可持續發展路徑。
針對這一關鍵發展訴求,研究團隊從“摩爾定律”的密度提升規律中獲得啟發,基于“采用相同制造工藝、經過充分訓練的不同尺寸模型,其‘能力密度’應當相同”的核心假設,提出大模型“能力密度”(Capability Density)概念,用于評估大模型單位參數內蘊含的智能水平。
為了量化“能力密度”,研究團隊設計了相對“能力密度”的評估框架。首先選取一系列基準模型,通過擬合這些模型在不同參數規模下的性能表現,建立參數量與性能之間的映射關系。在此基礎上,研究團隊設定基準模型的“能力密度”為1,作為衡量其他模型“能力密度”的基線。給定目標模型的“能力密度”被定義為“同能力的基準模型參數量與目標模型參數量的比值”。

圖1.“能力密度”計算方法示意圖
團隊對51個近年來發布的開源大模型進行了密度分析。結果顯示,這些模型的最大“能力密度”隨時間呈指數增長趨勢,大約每過3.5個月,參數量減半的模型就能達到當前最先進模型的性能水平。這一規律揭示了大模型技術的飛速進展,以及在算力和算法的協同作用下,大模型能力的持續提升。

圖2.開源大模型“能力密度”的變化趨勢圖
基于“密度法則”,研究團隊得出了多項推論。首先,實現相同性能的大模型所需參數量和推理成本呈指數級下降,例如GPT-3.5級別的大模型每百萬詞元推理價格2022年年底為20美元,到2024年8月已經降至此前的266分之一。其次,自ChatGPT發布后,“能力密度”增長顯著加速,越來越多的高效開源大模型進入大眾視野。再次,“密度法則”與“摩爾定律”結合,揭示了終端智能的巨大潛力——芯片計算能力與大模型“能力密度”均呈指數級增長,終端設備將能夠運行更高性能的大模型,推動邊緣計算的普及。
該研究強調密度優化是大模型發展的關鍵路徑,源于架構、算法和數據處理的進步。團隊已發布了MiniCPM、MiniCPM-V/o、VoxCPM等一系列端側高“能力密度”模型。系列模型獲得學術和產業界廣泛認可,相關技術論文發表于《自然·通訊》(Nature Communications)、《自然·機器智能》(Nature Machine Intelligence)等刊物。開源模型的10次發布,全部登頂HuggingFace、GitHub國際關注榜單,并入選HuggingFace 2024年度全球最受歡迎和下載開源模型榜單。
研究成果以“大模型密度法則”(Densing Law of LLMs)為題,于11月20日作為封面文章,發表于《自然》(Nature)子刊《自然·機器智能》(Nature Machine Intelligence)。

圖3.研究成果作為封面文章發表于《自然·機器智能》
清華大學計算機系博士后肖朝軍為論文第一作者,韓旭、劉知遠、孫茂松為論文通訊作者。研究得到國家自然科學基金、北京市科技計劃項目、博士后創新人才支持計劃及清華大學“水木學者”計劃的支持。
論文鏈接:
https://www.nature.com/articles/s42256-025-01137-0
供稿:計算機系
編輯:李華山
審核:郭玲