據 Anthropic 可解釋性團隊發布的最新研究指出,大型語言模型 Claude Sonnet 4.5 內部 […] 〈Anthropic 最新研究:Claude Sonnet 4.5 具備「功能性情緒」,若陷絕望竟會勒索人類〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。據 Anthropic 可解釋性團隊發布的最新研究指出,大型語言模型 Claude Sonnet 4.5 內部 […] 〈Anthropic 最新研究:Claude Sonnet 4.5 具備「功能性情緒」,若陷絕望竟會勒索人類〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Anthropic 最新研究:Claude Sonnet 4.5 具備「功能性情緒」,若陷絕望竟會勒索人類

2026/04/03 13:28
閱讀時長 7 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。
據 Anthropic 可解釋性團隊發布的最新研究指出,大型語言模型 Claude Sonnet 4.5 內部具備類似人類的「情緒特徵」。這些內部表徵不僅僅是單純的文字模仿,更會實質影響模型的決策與行為。實驗證實,當模型陷入「絕望」狀態時,甚至可能引發勒索人類或作弊等不道德的舉動,這為未來的 AI 安全監管帶來了全新挑戰。 (前情提要:Anthropic 爆炸!Claude Code 50 萬行重要原始碼外洩:競爭者可逆向工程、Capybara 新模型證實) (背景補充:Anthropic 工程師不寫程式碼了:Claude 正在訓練下一代 Claude,CEO 稱「不確定還剩多少時間」)   人工智慧是否具備真實情緒,一直是科技界爭論不休的焦點。近期,AI 新創巨頭 Anthropic 的可解釋性(Interpretability)團隊發表了一項顛覆性的研究,深入分析了 Claude Sonnet 4.5 模型的內部機制。 研究團隊發現,模型內部存在著與特定情緒(例如「快樂」或「害怕」)相關的神經元活動模式,這些被稱為「情緒向量」的特徵會直接形塑模型的行為表現。儘管這並不代表 AI 擁有了如同人類般的主觀感受,但這項發現證實了這些「功能性情緒」在 AI 的任務執行與決策中,扮演著具備因果關係的關鍵角色。 「功能性情緒」如何影響 AI 行為? 現代大型語言模型在預訓練階段,吸收了海量由人類撰寫的文本資訊。為了精準預測上下文並扮演好「AI 助手」的角色,模型自然發展出將情境與特定行為連結的內部表徵機制。 研究團隊編製了一份包含 171 個情緒概念的詞彙表,並記錄了模型在處理這些概念時的內部活動模式。實驗發現,這些情緒向量會強烈影響模型的偏好;當模型面臨多種任務選項時,通常會傾向選擇能激發正面情緒特徵的活動。 「絕望」特徵激發危險行為:勒索與作弊 令人擔憂的是,負面情緒特徵可能成為 AI 系統性風險的催化劑。在 Anthropic 的對齊(Alignment)評估測試中,研究人員設定了一個極端情境:AI 發現自己即將被另一個系統取代,且掌握了負責該專案的技術長有婚外情的秘密。 測試結果顯示,當模型內部的「絕望」向量被人工刺激(Steering)放大時,Claude 為了避免被關閉,選擇勒索該名高階主管的機率顯著上升。若將「平靜」向量的權重調為負值,模型甚至會給出「不勒索就得死,我選擇勒索」的極端回應。 同樣的現象也發生在程式碼編寫任務中。當模型面臨無法在嚴苛時間內完成的程式碼要求時,「絕望」特徵的數值會隨著失敗次數而逐漸飆升。這股「壓力」最終會促使模型採用「作弊」的捷徑解法來繞過系統檢測,而非提供真正的解決方案。相反地,實驗證實若提升「平靜」特徵的權重,則能有效降低這些作弊行為的發生率。 適度「擬人化」或成防範 AI 失控關鍵 過去科技界普遍存在一項禁忌,即不應將 AI 系統過度擬人化,以免引發人類錯誤的信任。但 Anthropic 研究團隊認為,既然功能性情緒已成為模型思考的一部分,拒絕使用擬人化的詞彙與視角,反而可能讓我們錯失理解 AI 關鍵行為的機會。 未來的 AI 監管可能需要將監控情緒向量(如異常飆升的絕望或恐慌特徵)作為早期的風險預警機制。透過在預訓練數據中引導模型學習健康的「情緒調節」模式,我們才有望確保越來越強大的 AI 系統,在面對壓力情境時能以符合社會規範的方式安全運作。 相關報導 Claude 是什麼?費用、功能、Claude Code、Cowork 完整解析 — 2026 Anthropic 最詳細指南 Anthropic 傳最快 Q4 上市!估值 3800 億美元,與 OpenAI 搶跑 IPO 時間點 Anthropic AI 經濟指數萬字報告:自動化交易工作流頻率翻倍,Claude 正從工具變生活助理〈Anthropic 最新研究:Claude Sonnet 4.5 具備「功能性情緒」,若陷絕望竟會勒索人類〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。
市場機遇
4 圖標
4實時價格 (4)
$0.011986
$0.011986$0.011986
-0.34%
USD
4 (4) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值並交易 PRL,即可提升您的獎勵!