近日,國產(chǎn)AI巨頭月之暗面推出了其最新研發(fā)成果——視覺思考模型k1。這一創(chuàng)新模型以強(qiáng)化學(xué)習(xí)為核心技術(shù),實(shí)現(xiàn)了端到端的圖像理解與思維鏈擴(kuò)展,不僅在數(shù)學(xué)領(lǐng)域展現(xiàn)出了卓越能力,還成功跨越至物理、化學(xué)等基礎(chǔ)科學(xué)領(lǐng)域。
目前,k1模型已全面融入Kimi智能助手的Android、iPhone應(yīng)用及網(wǎng)頁平臺(tái)kimi.com中,用戶只需在最新版本的手機(jī)APP或網(wǎng)頁端Kimi+頁面找到“Kimi視覺思考版”,即可輕松通過拍照或上傳圖片進(jìn)行體驗(yàn)。
據(jù)官方數(shù)據(jù),在基礎(chǔ)科學(xué)領(lǐng)域的基準(zhǔn)測(cè)試中,k1模型的表現(xiàn)尤為亮眼,超越了包括OpenAI的o1、GPT-4o以及Claude 3.5 Sonnet在內(nèi)的全球頂尖模型。這一成績不僅彰顯了k1在圖像理解與科學(xué)推理上的強(qiáng)大實(shí)力,也標(biāo)志著國產(chǎn)AI技術(shù)在國際舞臺(tái)上的又一重要突破。
k1模型的核心優(yōu)勢(shì)在于其端到端的圖像理解與思考能力,無需依賴外部OCR或額外視覺模型,即可直接處理用戶輸入的圖像信息,并快速得出準(zhǔn)確答案。這一特點(diǎn)使得k1在信息處理效率與準(zhǔn)確性上實(shí)現(xiàn)了顯著提升。
從模型訓(xùn)練的角度來看,k1的成功離不開其精心設(shè)計(jì)的兩個(gè)階段訓(xùn)練過程。首先,通過預(yù)訓(xùn)練獲得基礎(chǔ)模型,該模型在字符識(shí)別等關(guān)鍵任務(wù)上取得了優(yōu)異成績,如在OCRBench上獲得了903分的當(dāng)前最好結(jié)果。隨后,在基礎(chǔ)模型的基礎(chǔ)上進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練,進(jìn)一步優(yōu)化了數(shù)據(jù)質(zhì)量與學(xué)習(xí)效率,實(shí)現(xiàn)了在強(qiáng)化學(xué)習(xí)規(guī)模化上的新突破。
k1在MathVista-testmini、MMMU-val和DocVQA等多個(gè)基準(zhǔn)測(cè)試集上也取得了優(yōu)異成績,分?jǐn)?shù)分別高達(dá)69.1、66.7和96.9,位列全球前列。這些成績充分證明了k1模型在科學(xué)推理與圖像理解方面的深厚底蘊(yùn)。
然而,月之暗面也坦誠地指出了k1模型在內(nèi)部測(cè)試中發(fā)現(xiàn)的一些局限性。例如,在分布外泛化、復(fù)雜問題成功率、噪聲場(chǎng)景準(zhǔn)確率以及多輪問答效果等方面,k1仍有較大的提升空間。特別是在與OpenAI的o1系列模型相比時(shí),k1在某些場(chǎng)景和泛化能力上仍存在一定的差距。