交易所DEX+

Google 發布 Gemini 3 Deep Think 重大更新，在 ARC-AGI-2 測試中以 84. […] 〈Google 的 Gemini 3 Deep Think 大升級：推理能力強壓 Opus 4.6、GPT-5.2，要做「最會科研的 AI」〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具Google 發布 Gemini 3 Deep Think 重大更新，在 ARC-AGI-2 測試中以 84. […] 〈Google 的 Gemini 3 Deep Think 大升級：推理能力強壓 Opus 4.6、GPT-5.2，要做「最會科研的 AI」〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具

Google 的 Gemini 3 Deep Think 大升級：推理能力強壓 Opus 4.6、GPT-5.2，要做「最會科研的 AI」

作者：Blocktempo

來源：Blocktempo ZH

2026/02/13 11:00

閱讀時長 9 分鐘

DEEP$0.028995-0.85%

THINK$0.0005249-2.48%

4$0.010909+7.62%

Google 發布 Gemini 3 Deep Think 重大更新，在 ARC-AGI-2 測試中以 84.6% 大幅超越 Claude Opus 4.6（68.8%）和 GPT-5.2（52.9%），同時在 Codeforces 達到「傳奇宗師」等級。（前情提要：Gemini 上線免費「SAT 模擬考」功能，AI 家教提供個人化學習指南）（背景補充：Google 正式推出「Gemini 3」！登頂全球最聰明 AI 模型，有什麼亮點？） Google 今（13）日發布了 Gemini 3 Deep Think 的重大升級。在 ARC-AGI-2（一個專門防止 AI 背題庫的推理測試，不考你知道多少，考你能不能從幾個範例中自己歸納出規則）測試中，Gemini 3 Deep Think 拿下了 84.6%。作為參照，Claude Opus 4.6（Thinking Max 模式）拿到 68.8%，GPT-5.2（Thinking xhigh 模式）是 52.9%，而人類平均約 60%。更驚人的是，在原版 ARC-AGI-1 上，Deep Think 拿到 96%，基本上把這個曾被視為「AI 最難考試之一」的基準測試考到了天花板。 Deep Think 目前開放給 Google AI Ultra 訂閱用戶，API 則面向企業開放早期存取。不只會考試，還會抓人類的錯跑分之外，Google 在公告中提到了一個細節：Deep Think 在審閱一篇經過人類同行評審的數學論文時，成功找出了一個之前所有審稿人都沒發現的邏輯漏洞。這篇論文由羅格斯大學（Rutgers University）的數學家確認。這個案例的重要性在於，它不是模型在標準化測試中的表現，而是在真實的、開放式的科學場景中展現的能力。同行評審是學術界最核心的品質控制機制，如果 AI 能穩定地在這個環節提供有價值的輔助，它對科學研究的加速效應將遠超任何跑分所能衡量。 Deep Think 同時在 2025 年國際物理奧林匹克和化學奧林匹克的筆試部分達到金牌水準，在 Codeforces 上的 Elo 評分為 3,455，對應「傳奇宗師」等級，全球僅極少數人類程式設計師能達到這個層級。而在「人類最後的考試」（Humanity’s Last Exam）這個由各領域專家設計、刻意讓 AI 難以作答的基準上，Deep Think 拿到 48.4%（不使用工具），也創下新紀錄。市場份額的地殼變動 AI 三巨頭的技術競賽正在改變市場版圖。ChatGPT 的市佔率已從巔峰時期的 87% 降至約 68%，而 Gemini 從不到 5% 飆升至超過 18%、Anthropic 的 Claude 則穩步蠶食企業級市場。 Google 在這場競賽中的獨特優勢是分發能力。Gemini 內建在 Android 系統、Chrome 瀏覽器、Google Workspace 和搜尋引擎中，這意味著即使在模型能力上與對手打平，Google 也能透過渠道優勢贏得用戶。但分發優勢是雙面刃。如果 Gemini 的體驗不夠好，它可能會比任何競品更快地失去用戶信任，因為用戶是「被動接觸」而非「主動選擇」。OpenAI 的用戶是主動付費的，天然有更高的容忍度和黏性。對加密產業的漣漪效應 AI 軍備競賽的每一次升級，都在推高對運算基礎設施的需求。訓練一個前沿模型所需的 GPU 叢集成本已經從 2024 年的數億美元級別，膨脹到 2026 年的數十億美元級別。這也直接影響了兩件事。第一，比特幣礦工的轉型路徑。當挖礦利潤被壓縮（摩根大通本週估算 BTC 生產成本降至 7.7 萬美元，而幣價在 6.6 萬附近），擁有大規模算力基礎設施的礦工正加速轉向 AI 運算服務。高成本礦企不是「退出」，而是「轉業」，從挖比特幣變成提供 AI 算力的合約收入。第二，AI 代幣的敘事。每當 Google、OpenAI 或 Anthropic 發布重大升級，鏈上 AI 相關代幣（如去中心化運算協議）通常會出現短期炒作。但這些代幣的基本面問題始終沒變：去中心化運算在延遲和吞吐量上，距離企業級 AI 訓練的需求還有很長的路要走。敘事可以跑得很快，但基礎設施還追不上敘事的速度。科學決勝局才剛開始 Deep Think 的升級把 Google 又推回了 AI 競賽的領跑位置，至少在推理和科學領域是如此。但如果你仔細看 Google 的公告措辭，會發現一個微妙的定位轉變：它不再強調「最聰明的通用 AI」，而是反覆提及「為科學而生」。當通用 AI 的基準測試越來越擁擠、差異化越來越難，「我的 AI 能幫你做科學研究」是一個比「我的 AI 跑分最高」更有說服力的價值主張。如果 Deep Think 真的能穩定地輔助同行評審、加速藥物發現、或在物理模擬中找到人類遺漏的解，這比任何跑分榜單都更有意義。問題是，從「能在基準測試上拿高分」到「能在真實科學場景中可靠地輔助人類」，中間的距離可能比 Google 暗示的更遠，畢竟基準測試有標準答案，科學沒有。相關報導 Telegram 創辦人宣布「AI 算力網路 Cocoon」上線：可用 GPU 挖 TON、100% 隱私運算馬斯克預測：3年內AI將解決38兆美元美債，20年後人類已不需要工作李飛飛談 LLM 下一步：AI 須擁有「空間智慧」才能理解真實世界，Marble 模型如何實現？〈Google 的 Gemini 3 Deep Think 大升級：推理能力強壓 Opus 4.6、GPT-5.2，要做「最會科研的 AI」〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

市場機遇

DeepBook實時價格 (DEEP)

$0.028995

$0.028995$0.028995

-0.65%

USD

DeepBook (DEEP) 實時價格圖表

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。