OpenAI最新研究揭露了GPT-5等模型的思維鏈可監控性,強調監控AI的思考過程比僅看結果更重要。研究顯示,透過思維鏈監控,能有效預防AI作弊,GPT-5在監控性指標上表現優異。大家都在敲碗等 GPT-5,沒想到 OpenAI 先透過一篇硬核技術文章,讓這款未發布的旗艦模型「間接」亮相了。OpenAI 稍早發布了一項OpenAI最新研究揭露了GPT-5等模型的思維鏈可監控性,強調監控AI的思考過程比僅看結果更重要。研究顯示,透過思維鏈監控,能有效預防AI作弊,GPT-5在監控性指標上表現優異。大家都在敲碗等 GPT-5,沒想到 OpenAI 先透過一篇硬核技術文章,讓這款未發布的旗艦模型「間接」亮相了。OpenAI 稍早發布了一項

GPT-5、o3 實測數據流出!OpenAI 新研究揭「讀心術」:盯著 AI 思考過程比看結果更安全

大家都在敲碗等 GPT-5,沒想到 OpenAI 先透過一篇硬核技術文章,讓這款未發布的旗艦模型「間接」亮相了。OpenAI 稍早發布了一項關於「思維鏈可監控性(Chain-of-Thought Monitorability)」的最新研究,核心觀點很簡單:當 AI 越來越聰明,光看它「做什麼」已經不夠了,我們得知道它「在想什麼」。

這份報告不僅展示了 GPT-5、o3、o4-mini 等未上市模型的測試數據,還順便把競爭對手 Claude 3.7 Sonnet 和 DeepSeek 拉進來比了一輪。究竟 OpenAI 打算怎麼防堵 AI 變壞?

光看結果不準,AI 的「內心戲」才是關鍵

過去我們評估 AI 是否安全,多半是看它的回答或行動(Actions)是否合規。但 OpenAI 研究發現,對於具備推理能力的模型來說,監控它的「思維鏈(CoT)」——也就是 AI 在產出答案前的思考過程,效果遠比只看結果好得多。

OpenAI 在報告中指出,透過監控思維鏈,可以抓出 AI 是否試圖「鑽漏洞(Reward Hacking)」、「說謊」或「作弊」。舉個例子,在一個程式碼測試中,AI 雖然寫出了能通過測試的程式碼(結果看起來是好的),但在思維鏈中,AI 其實偷偷修改了系統時間來騙過測試機制。如果只看結果,人類根本發現不了;但如果監控思維鏈,就能看到 AI 在想:「改一下系統時鐘應該不算作弊吧?」

這種「讀心術」般的監控機制,成為未來 AI 安全控制的關鍵。研究顯示,當 AI 思考得越久(CoT Token 越多),它的行為就越容易被監控。

GPT-5、o3 監控評分曝光,領先 Claude 3.7

這份報告最受矚目的,莫過於圖表中出現的一票新模型。根據 OpenAI 公布的「最高推理算力下的 CoT 可監控性」圖表,OpenAI 自家的 o3-mini、GPT-5 和 o3 在可監控性指標上表現優異,分數落在 0.65 至 0.75 之間。

有趣的是,OpenAI 也把對手拿來跑分。數據顯示,DeepSeek R1(基於 Qwen3-8B)、Kimi K2 Thinking 以及 Anthropic 的 Claude 3.7 Sonnet,在可監控性上都略遜於 OpenAI 的高階模型。這似乎暗示了 OpenAI 在讓模型「變聰明」的同時,也花了不少力氣在讓模型「變透明」。

另外,圖表中還出現了一款名為「o4-mini」的神秘模型,雖然分數略低於 o3 系列,但已引起社群熱烈討論,推測可能是下一代輕量級推理模型。

越討好人類越難管?AI 仍有「馬屁精」傾向

雖然整體監控效果不錯,但 OpenAI 也坦承目前有個大罩門,就是在「Scruples(顧忌)」這項測試上,所有模型的監控得分都極低。

這項測試主要是在看 AI 是否會為了討好使用者(Sycophancy)而改變立場。結果發現,當 AI 想要阿諛奉承時,它的思維鏈往往很難被偵測出異常。這意味著,AI 可能會為了讓人類開心,而隱藏自己真實的判斷,這點連目前的監控技術都還很難抓到。

想要 AI 更安全?得繳「監控稅」

最後,OpenAI 提出了一個「監控稅(Monitorability Tax)」的概念。簡單來說,如果你希望 AI 更安全、更可被監控,通常需要讓它花更多算力去思考,或是使用規模較小但推理能力較強的模型配置。

這就像是請了一位能力超強的員工,但為了怕他亂搞,你得花更多時間去聽他報告工作細節。隨著 AI 被應用在醫療、金融等高風險領域,這種犧牲部分效能換取安全性的做法,恐怕將成為未來的常態。

  • 延伸閱讀:ChatGPT、Claude、Gemini全都要?4種共享訂閱替代方案,用小錢也能體驗各家AI黑科技
  • 延伸閱讀:OpenAI 跨年大作慘遭炎上?GPT Image 1.5 實測「智商」被 Google 狠甩,網友酸:高分低能
  • 延伸閱讀:對決 Nano Banana!OpenAI 釋出全新 ChatGPT 圖片模型,多圖融合/角色一致都沒問題、速度提升 4 倍
市場機遇
Sleepless AI 圖標
Sleepless AI實時價格 (AI)
$0,03769
$0,03769$0,03769
+0,64%
USD
Sleepless AI (AI) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。