亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

Meta攜手高校,ExploreToM能否為大語(yǔ)言模型解鎖“心智理論”新篇章?

   發(fā)布時(shí)間:2024-12-20 13:17 作者:顧雨柔

meta公司近期宣布了一項(xiàng)重大科研合作,攜手學(xué)術(shù)界的佼佼者——華盛頓大學(xué)與卡內(nèi)基梅隆大學(xué),共同推出了一個(gè)名為ExploreToM的創(chuàng)新框架。這一合作項(xiàng)目的核心目標(biāo),是提升大型語(yǔ)言模型(LLM)在心智理論(Theory of Mind,簡(jiǎn)稱ToM)方面的能力。

心智理論,作為人類社會(huì)智能的關(guān)鍵組成部分,使我們能夠洞悉他人的想法、意圖和信念。這種深刻的認(rèn)知能力,是有效溝通與協(xié)作的基石,支撐著我們進(jìn)行復(fù)雜的社交互動(dòng)。然而,當(dāng)前的大型語(yǔ)言模型在ToM方面仍顯不足,這成為了實(shí)現(xiàn)AI與人類無(wú)縫互動(dòng)的一大障礙。

現(xiàn)有的基準(zhǔn)測(cè)試方法,往往因缺乏足夠的復(fù)雜性和多樣性,而高估了模型的實(shí)際能力。這些測(cè)試大多基于預(yù)設(shè)的簡(jiǎn)單場(chǎng)景,無(wú)法復(fù)現(xiàn)人類在進(jìn)行心理狀態(tài)推斷時(shí)所采用的復(fù)雜推理過(guò)程。因此,meta及其合作伙伴決定通過(guò)ExploreToM框架,來(lái)打破這一瓶頸。

ExploreToM框架的核心優(yōu)勢(shì),在于其能夠生成多樣化且可擴(kuò)展的對(duì)抗性數(shù)據(jù)集。這一創(chuàng)新方法,不僅揭示了當(dāng)前模型的局限性,還展現(xiàn)了高質(zhì)量訓(xùn)練數(shù)據(jù)在彌補(bǔ)這些差距方面的巨大潛力。在數(shù)據(jù)集構(gòu)建方面,ExploreToM采用了A*搜索算法和特定領(lǐng)域語(yǔ)言,生成了一系列高難度的測(cè)試場(chǎng)景,這些場(chǎng)景模擬了復(fù)雜的社會(huì)情境,挑戰(zhàn)著LLM的認(rèn)知極限。

與現(xiàn)有的基準(zhǔn)測(cè)試相比,ExploreToM通過(guò)創(chuàng)建對(duì)抗性的故事場(chǎng)景,旨在揭示LLM在ToM推理中的盲點(diǎn)和不足之處。這一做法,不僅有助于更準(zhǔn)確地評(píng)估模型的能力,還為后續(xù)的改進(jìn)提供了明確的方向。

ExploreToM框架還引入了一項(xiàng)創(chuàng)新機(jī)制——非對(duì)稱信念更新。這一機(jī)制能夠模擬不同角色對(duì)同一情況持有不同觀點(diǎn)的復(fù)雜社交互動(dòng),從而進(jìn)一步提升了模型的ToM能力。在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn),主流模型如GPT-4o和Llama-3.1-70B,在ExploreToM數(shù)據(jù)集上的表現(xiàn)并不理想,準(zhǔn)確率分別僅為9%和0%。這一結(jié)果,再次凸顯了現(xiàn)有LLM在處理復(fù)雜ToM推理方面的不足。

然而,令人鼓舞的是,當(dāng)在ExploreToM數(shù)據(jù)集上進(jìn)行微調(diào)后,這些模型在經(jīng)典的ToMi基準(zhǔn)測(cè)試中的準(zhǔn)確率有了顯著提升,高達(dá)27個(gè)百分點(diǎn)。這一成果,不僅證明了ExploreToM框架的有效性,也為未來(lái)AI在ToM能力上的進(jìn)一步突破奠定了堅(jiān)實(shí)基礎(chǔ)。

 
 
更多>同類內(nèi)容
全站最新
熱門(mén)內(nèi)容
本欄最新
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群