吉利汽車集團(tuán)與其科技生態(tài)戰(zhàn)略合作伙伴階躍星辰近日攜手宣布,兩款革命性的多模態(tài)大模型——階躍Step系列,正式面向全球開發(fā)者開放源代碼。開發(fā)者們即刻起可通過躍問APP探索這一創(chuàng)新技術(shù)。
階躍Step-Video-T2V,作為一款視頻生成模型,不僅在參數(shù)量上達(dá)到了驚人的300億,更在性能上樹立了新的標(biāo)桿,被譽(yù)為全球范圍內(nèi)最頂尖的開源視頻生成模型。它能夠直接產(chǎn)出204幀、540p高清視頻,且在復(fù)雜動(dòng)態(tài)場(chǎng)景、人物美感塑造、視覺創(chuàng)意、文字到視頻的轉(zhuǎn)化、雙語輸入處理以及鏡頭語言運(yùn)用等方面,均展現(xiàn)出了卓越的能力。其語義理解與指令執(zhí)行精度同樣令人矚目。
為了科學(xué)評(píng)估文生視頻的質(zhì)量,階躍星辰還推出了Step-Video-T2V-eval基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包含128條基于真實(shí)用戶反饋的中文評(píng)測(cè)問題,覆蓋了運(yùn)動(dòng)、風(fēng)景、動(dòng)物、概念組合、超現(xiàn)實(shí)、人物、3D動(dòng)畫、電影攝影等11個(gè)內(nèi)容領(lǐng)域。評(píng)測(cè)結(jié)果顯示,階躍Step-Video-T2V在指令遵循、運(yùn)動(dòng)流暢性、物理邏輯合理性及美學(xué)表現(xiàn)上,均顯著優(yōu)于當(dāng)前市場(chǎng)上的其他開源視頻模型。
與此同時(shí),階躍Step-Audio作為行業(yè)內(nèi)首款產(chǎn)品級(jí)開源語音交互大模型,其表現(xiàn)同樣令人驚艷。它能夠根據(jù)場(chǎng)景需求,靈活生成包含情緒、方言、語種、歌聲及個(gè)性化風(fēng)格的語音表達(dá),實(shí)現(xiàn)與用戶的高質(zhì)量自然對(duì)話。該模型生成的語音不僅自然流暢,且具備高情商特征,能夠進(jìn)行音色復(fù)刻與角色扮演,完美適配影視娛樂、社交、游戲等多個(gè)行業(yè)的應(yīng)用場(chǎng)景。
在LlaMA Question、Web Questions等五大主流測(cè)試集中,階躍Step-Audio的表現(xiàn)均位居榜首。特別是在HSK-6(漢語水平考試六級(jí))評(píng)測(cè)中,其展現(xiàn)出的中文理解與應(yīng)用能力尤為突出,被譽(yù)為最懂中國(guó)話的開源語音交互大模型。階躍星辰還自建了Stepeval-Audio-360基準(zhǔn)測(cè)試體系,從九個(gè)維度對(duì)開源語音模型進(jìn)行全面評(píng)估。人工評(píng)測(cè)結(jié)果顯示,階躍Step-Audio在各項(xiàng)能力上均表現(xiàn)出色,均衡且超越了此前市場(chǎng)上的最佳開源語音模型。
階躍星辰的成就也引起了業(yè)界的廣泛關(guān)注。Hugging Face的聯(lián)合創(chuàng)始人兼CEO Clement Delangue對(duì)階躍星辰的大模型給予了高度評(píng)價(jià),認(rèn)為其在人工智能領(lǐng)域具有巨大的潛力,有望成為下一個(gè)行業(yè)領(lǐng)袖。
階躍星辰公司成立于2023年4月,總部位于上海,由微軟前全球副總裁姜大昕領(lǐng)銜。公司致力于推動(dòng)通用人工智能(AGI)的發(fā)展,自2024年下半年以來,其多模態(tài)API的調(diào)用量實(shí)現(xiàn)了超過45倍的增長(zhǎng),彰顯了其在人工智能領(lǐng)域的強(qiáng)勁實(shí)力與廣闊前景。