
美團發布 LongCat-2.0 AI 模型 聲稱完全採用國產晶片訓練
全球語言翻譯
由 Google 翻譯提供 · Powered by Google Translate
美團 LongCat-2.0:國產晶片訓練的里程碑
美團昨天正式發布新一代兆級參數大模型 LongCat-2.0,該模型聲稱是全球首個完全在 5 萬張國產晶片集群上完成訓練及運行的兆級參數人工智能系統,直接回應美國的出口管制措施。這一突破標誌著中國在高端 AI 算力自主可控道路上邁出關鍵一步。

📊 規格達兆級參數 效能逼近 DeepSeek 旗艦
LongCat-2.0 總參數規模達 1.6 兆(平均每個 token 啟用約 480 億個參數),由零開始訓練,原生支援 100 萬個 token 超長上下文視窗。其規模與今年 4 月推出的 DeepSeek 最新旗艦模型 V4-Pro 相若。
在具體評測數據上,LongCat-2.0 在 SWE-bench Pro 編碼評測得分為 59.5,超過 GPT-5.5 的 58.6。然而,在 FORTE 及 BrowseComp 等更廣泛的代理能力評測上,仍略低於 Anthropic 旗艦模型 Claude Opus 4.8。
⚙️ 端到端訓練是關鍵突破
此次公告的核心在於「端到端」訓練。目前不少中國大模型僅能在國產硬件上運行推理(即回答查詢),但預訓練過程因運算量龐大,一向最依賴頂尖晶片。相比之下,DeepSeek V4-Pro 只在推理環節使用國產晶片,而 LongCat-2.0 則同時在預訓練及推理兩個環節都採用國產硬件。
美團披露預訓練數據消耗超過 35 兆個 token,全程沒有回滾或不可恢復的損失峰值,證明具備在替代硬件平台上進行前沿規模訓練的能力。雖然未公開具體晶片供應商,但透露使用了「華為集合通訊庫」(HCCL)以提升穩定性,顯示其長期戰略部署而非倉促應對。

🌍 回應美國出口管制的戰略意義
若這項聲稱屬實,將直接觸及懸在中國人工智能產業頭上的戰略問題:能否在沒有 Nvidia 的情況下,建構前沿級的大模型。美國政府以國家安全為由限制出口最先進晶片,北京則投入大量資源發展國產替代方案。LongCat-2.0 正是硬件推動下,軟件層面的對應成果。
以外賣及生活服務起家的美團,此次跨界押注人工智能基建,旨在讓路線規劃、需求預測及客戶服務等核心業務的運算能力,免受下一輪出口管制收緊的影響。
註: 模型權重截至發布當日仍未提供,外界暫時未能完全獨立驗證公司的所有評測聲稱。模型效能是否真正逼近 DeepSeek V4-Pro 及其他主流模型水平,有待權重正式發布後由開源社群進行獨立驗證。
來源:藍骨 (Unwire.hk) / Reuters
按此進入原新聞頁面

