6月30日,華為宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型,以及基于昇騰的模型推理技術。
華為方面表示,此舉是華為踐行昇騰生態(tài)戰(zhàn)略的又一關鍵舉措,推動大模型技術的研究與創(chuàng)新發(fā)展,加速推進人工智能在千行百業(yè)的應用與價值創(chuàng)造。
目前,盤古Pro MoE 72B模型權重、基礎推理代碼,已正式上線開源平臺。基于昇騰的超大規(guī)模MoE模型推理代碼,已正式上線開源平臺。盤古7B相關模型權重與推理代碼將于近期上線開源平臺。
華為開源兩款模型。GitCode網站截圖
在針對盤古Pro MoE的報告中,華為盤古團隊指出,混合專家模型(MoE)在大語言模型(LLMs)中興起,然而在實際部署中,不同專家的激活頻率存在嚴重的不均衡問題,一部分專家被過度調用,而其他專家則長期閑置,導致系統(tǒng)效率低下。
為此,華為盤古團隊提出了新型的分組混合專家模型(Mixture of Grouped Experts, MoGE),該模型在專家選擇階段對專家進行分組,并約束token在每個組內激活等量專家,從而實現(xiàn)專家負載均衡,顯著提升模型在昇騰平臺的部署效率?;贛oGE架構,團隊構建了總參數(shù)量720億、激活參數(shù)量160億的盤古Pro MoE模型,并針對昇騰300I Duo和800I A2平臺進行系統(tǒng)優(yōu)化。
從效果來看,盤古Pro MoE在昇騰800I A2上實現(xiàn)了單卡1148 tokens/s的推理吞吐性能,并可進一步通過投機加速等技術提升至1528 tokens/s,顯著優(yōu)于同等規(guī)模的320億和720億參數(shù)的稠密模型;在昇騰300I Duo推理服務器上,也實現(xiàn)了極具性價比的模型推理方案。
技術報告指出,經研究表明,昇騰NPU能夠支持盤古Pro MoE的大規(guī)模并行訓練。多項公開基準測試結果表明,盤古Pro MoE在千億內總參數(shù)模型中處于領先地位。
對于盤古70億參數(shù)的稠密模型,華為研究團隊指出,大語言模型(LLM)普遍面臨著巨大的計算成本和推理延遲挑戰(zhàn),這限制了它們的實際應用與部署。
為此,團隊提出了盤古Embedded,一個在昇騰(Ascend)NPU上開發(fā)的高效大語言模型推理器。其核心是一個具備“快思慢想”(fast and slow thinking)能力的雙系統(tǒng)框架。該框架通過一個用于常規(guī)請求的“快思考”模式和一個用于復雜推理的“慢思考”模式,在延遲和推理深度之間實現(xiàn)了平衡。
從效果上看,70億參數(shù)的盤古Embedded在多個權威的復雜推理基準測試中(如AIME、 GPQA等),其表現(xiàn)優(yōu)于Qwen3-8B和GLM4-9B等規(guī)模相近的業(yè)界領先模型。
華為在大模型領域進展加速。除了上述兩款模型,今年5月底,華為還推出了參數(shù)規(guī)模達7180億新模型——盤古Ultra MoE,全流程在昇騰AI計算平臺上訓練。華為同時發(fā)布盤古Ultra MoE模型架構和訓練方法的技術報告,披露眾多技術細節(jié)。
在6月20日舉辦的華為開發(fā)者大會2025上,華為云正式發(fā)布盤古大模型5.5,自然語言處理(NLP)、計算機視覺(CV)、多模態(tài)、預測、科學計算五大基礎模型全面升級。
新京報貝殼財經記者 韋博雅
編輯 楊娟娟
校對 劉軍