亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

MiniMax發(fā)布全球首個開源混合架構(gòu)推理模型M1,性能卓越

   發(fā)布時間:2025-06-17 18:52 作者:柳晴雪

稀宇科技近日宣布了一項重大計劃,將在未來五天內(nèi)連續(xù)發(fā)布一系列重要更新。首當(dāng)其沖的是開源其首個推理模型——MiniMax-M1,這一消息引起了業(yè)界的廣泛關(guān)注。

MiniMax-M1被標(biāo)榜為世界上首個開源的大規(guī)模混合架構(gòu)推理模型,稀宇科技對其性能贊譽有加。據(jù)官方介紹,M1在面向生產(chǎn)力的復(fù)雜場景中表現(xiàn)出色,其能力在開源模型中名列前茅,甚至超越了國內(nèi)的閉源模型,接近海外的最頂尖水平。同時,M1還具備業(yè)內(nèi)最高的性價比,為用戶提供了高效且經(jīng)濟的解決方案。

M1的兩大技術(shù)創(chuàng)新是其高效訓(xùn)練過程的關(guān)鍵。稀宇科技透露,M1僅用了3周時間和512塊H800 GPU就完成了強化學(xué)習(xí)訓(xùn)練階段,算力租賃成本僅為53.47萬美元(約合384.1萬元人民幣),遠(yuǎn)低于最初的預(yù)期。這一高效訓(xùn)練過程得益于獨創(chuàng)的混合架構(gòu)和更快的強化學(xué)習(xí)算法CISPO。

混合架構(gòu)以閃電注意力機制為主,使得M1在計算長上下文輸入和深度推理時具有顯著優(yōu)勢。例如,在處理8萬Token的深度推理任務(wù)時,M1僅需使用DeepSeek R1約30%的算力。CISPO算法通過裁剪重要性采樣權(quán)重來提升強化學(xué)習(xí)效率,在AIME實驗中表現(xiàn)出比包括字節(jié)近期提出的DAPO等算法更快的收斂性能。

在業(yè)內(nèi)主流的17個評測集上,M1的表現(xiàn)同樣令人矚目。特別是在軟件工程、長上下文與工具使用等面向生產(chǎn)力的復(fù)雜場景中,M1展現(xiàn)出顯著優(yōu)勢。在SWE-bench驗證基準(zhǔn)上,MiniMax-M1-40k和MiniMax-M1-80k分別取得了55.6%和56.0%的優(yōu)異成績,雖然略遜于DeepSeek-R1-0528的57.6%,但遠(yuǎn)超其他開源權(quán)重模型。同時,M1系列在長上下文理解任務(wù)中也表現(xiàn)出色,全球排名第二,僅次于Gemini 2.5 Pro。

在代理工具使用場景(TAU-bench)中,MiniMax-M1-40k同樣領(lǐng)跑所有開源權(quán)重模型,并戰(zhàn)勝了Gemini-2.5 Pro。值得注意的是,MiniMax-M1-80k在大多數(shù)基準(zhǔn)測試中始終優(yōu)于MiniMax-M1-40k,這充分驗證了擴展測試時計算資源的有效性。

稀宇科技還透露,M1的詳細(xì)技術(shù)報告和完整模型權(quán)重可在官方Hugging Face和GitHub賬號上訪問。vLLM和Transformer兩個開源項目也提供了各自的推理部署支持,稀宇科技正與SGLang合作推進(jìn)更多部署支持。由于M1相對高效的訓(xùn)練和推理算力使用,稀宇科技在MiniMax App和Web上都保持不限量免費使用,并以業(yè)內(nèi)最低的價格在官網(wǎng)提供API服務(wù)。

稀宇科技的這一系列更新無疑為業(yè)界帶來了新的活力和機遇。隨著后續(xù)更新的陸續(xù)發(fā)布,我們期待稀宇科技能夠繼續(xù)為用戶帶來更多創(chuàng)新和突破。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群