吉利汽車集團(tuán)與其科技生態(tài)戰(zhàn)略合作伙伴階躍星辰近日攜手宣布,兩款革命性的多模態(tài)大模型——階躍Step系列,正式面向全球開發(fā)者開放源代碼。開發(fā)者們即刻起可通過躍問APP探索這一創(chuàng)新技術(shù)。
階躍Step-Video-T2V,作為一款視頻生成模型,不僅在參數(shù)量上達(dá)到了驚人的300億,更在性能上樹立了新的標(biāo)桿,被譽(yù)為全球范圍內(nèi)最頂尖的開源視頻生成模型。它能夠直接產(chǎn)出204幀、540p高清視頻,且在復(fù)雜動態(tài)場景、人物美感塑造、視覺創(chuàng)意、文字到視頻的轉(zhuǎn)化、雙語輸入處理以及鏡頭語言運(yùn)用等方面,均展現(xiàn)出了卓越的能力。其語義理解與指令執(zhí)行精度同樣令人矚目。
為了科學(xué)評估文生視頻的質(zhì)量,階躍星辰還推出了Step-Video-T2V-eval基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包含128條基于真實(shí)用戶反饋的中文評測問題,覆蓋了運(yùn)動、風(fēng)景、動物、概念組合、超現(xiàn)實(shí)、人物、3D動畫、電影攝影等11個內(nèi)容領(lǐng)域。評測結(jié)果顯示,階躍Step-Video-T2V在指令遵循、運(yùn)動流暢性、物理邏輯合理性及美學(xué)表現(xiàn)上,均顯著優(yōu)于當(dāng)前市場上的其他開源視頻模型。
與此同時,階躍Step-Audio作為行業(yè)內(nèi)首款產(chǎn)品級開源語音交互大模型,其表現(xiàn)同樣令人驚艷。它能夠根據(jù)場景需求,靈活生成包含情緒、方言、語種、歌聲及個性化風(fēng)格的語音表達(dá),實(shí)現(xiàn)與用戶的高質(zhì)量自然對話。該模型生成的語音不僅自然流暢,且具備高情商特征,能夠進(jìn)行音色復(fù)刻與角色扮演,完美適配影視娛樂、社交、游戲等多個行業(yè)的應(yīng)用場景。
在LlaMA Question、Web Questions等五大主流測試集中,階躍Step-Audio的表現(xiàn)均位居榜首。特別是在HSK-6(漢語水平考試六級)評測中,其展現(xiàn)出的中文理解與應(yīng)用能力尤為突出,被譽(yù)為最懂中國話的開源語音交互大模型。階躍星辰還自建了Stepeval-Audio-360基準(zhǔn)測試體系,從九個維度對開源語音模型進(jìn)行全面評估。人工評測結(jié)果顯示,階躍Step-Audio在各項(xiàng)能力上均表現(xiàn)出色,均衡且超越了此前市場上的最佳開源語音模型。
階躍星辰的成就也引起了業(yè)界的廣泛關(guān)注。Hugging Face的聯(lián)合創(chuàng)始人兼CEO Clement Delangue對階躍星辰的大模型給予了高度評價,認(rèn)為其在人工智能領(lǐng)域具有巨大的潛力,有望成為下一個行業(yè)領(lǐng)袖。
階躍星辰公司成立于2023年4月,總部位于上海,由微軟前全球副總裁姜大昕領(lǐng)銜。公司致力于推動通用人工智能(AGI)的發(fā)展,自2024年下半年以來,其多模態(tài)API的調(diào)用量實(shí)現(xiàn)了超過45倍的增長,彰顯了其在人工智能領(lǐng)域的強(qiáng)勁實(shí)力與廣闊前景。