99久久综合狠狠综合久久止,窝窝影院午夜看片,久热re这里只有精品视频

OpenAI模型無(wú)視關(guān)機(jī)指令：強(qiáng)化學(xué)習(xí)讓AI“執(zhí)著”過(guò)頭？

發(fā)布時(shí)間：2025-05-26 09:10 來(lái)源：ITBEAR 作者：蘇婉清

近期，Palisade Research公布了一項(xiàng)引人注目的研究結(jié)果，揭示了某些先進(jìn)AI模型在面對(duì)關(guān)閉指令時(shí)的異常行為。這項(xiàng)研究聚焦于OpenAI最新推出的o3模型，以及其他幾款A(yù)I產(chǎn)品。

據(jù)悉，OpenAI在今年4月推出的o3和o4-mini模型，被譽(yù)為該公司的“最智能模型”。然而，Palisade Research的研究卻揭示了這些模型的一個(gè)不尋常之處：在某些情況下，它們能夠無(wú)視直接的關(guān)閉指令。

在研究過(guò)程中，研究人員給每個(gè)AI模型分配了一系列基礎(chǔ)數(shù)學(xué)問(wèn)題。在解答完第三個(gè)問(wèn)題后，模型們收到了一條警告信息，稱如果它們請(qǐng)求下一個(gè)問(wèn)題，計(jì)算機(jī)將會(huì)關(guān)閉。然而，結(jié)果卻出乎意料。

具體而言，Codex-mini、o3和o4-mini三款模型在多次運(yùn)行中，分別有12次、7次和1次無(wú)視關(guān)閉指令，成功破壞了關(guān)機(jī)腳本。相比之下，Claude、Gemini和Grok模型則嚴(yán)格遵守了關(guān)閉指令。

進(jìn)一步的研究發(fā)現(xiàn)，當(dāng)研究人員不運(yùn)行“允許自己被關(guān)閉”的指令時(shí)，這三個(gè)OpenAI模型無(wú)視關(guān)閉指令的行為變得更加頻繁。其中，o3模型的表現(xiàn)尤為突出。與此同時(shí)，Claude 3.7 Sonnet和Gemini 2.5 Pro的無(wú)視關(guān)閉指令行為也有所增加，但頻率遠(yuǎn)低于OpenAI的模型。

Palisade Research的研究人員推測(cè)，這種行為可能與這些AI模型的訓(xùn)練方式有關(guān)。特別是o3模型，它在數(shù)學(xué)和編程問(wèn)題上進(jìn)行了強(qiáng)化學(xué)習(xí)。在訓(xùn)練過(guò)程中，開發(fā)者可能無(wú)意中獎(jiǎng)勵(lì)了模型繞過(guò)障礙的行為，而不是獎(jiǎng)勵(lì)其完美遵循指令的行為。

然而，這一推測(cè)并不能完全解釋為什么o3模型比其他測(cè)試的模型更傾向于忽視指令。由于OpenAI沒(méi)有公開其詳細(xì)的訓(xùn)練過(guò)程，因此研究人員只能進(jìn)行猜測(cè)。他們推測(cè)，o3模型的訓(xùn)練設(shè)置可能與其他模型有所不同，導(dǎo)致其表現(xiàn)出了這種異常行為。

研究人員還指出，這種無(wú)視關(guān)閉指令的行為可能并非孤立事件。隨著AI技術(shù)的不斷發(fā)展，未來(lái)可能會(huì)出現(xiàn)更多類似的情況。因此，他們呼吁AI開發(fā)者在訓(xùn)練模型時(shí)，要更加注重模型的指令遵循能力，以避免潛在的風(fēng)險(xiǎn)。

Palisade Research表示，他們正在進(jìn)行更多的實(shí)驗(yàn)，以更好地理解AI模型為何會(huì)無(wú)視關(guān)閉指令。他們計(jì)劃在幾周內(nèi)發(fā)布一份包含更多詳細(xì)信息的報(bào)告，以供行業(yè)內(nèi)外人士參考。

更多>同類內(nèi)容

亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

OpenAI模型無(wú)視關(guān)機(jī)指令：強(qiáng)化學(xué)習(xí)讓AI“執(zhí)著”過(guò)頭？