圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

圖靈學院創辦人 科楠老師的願景

AGI 不只是更聰明的 ChatGPT —— 深度解析 DeepMind 提出的技術性安全防線

 

 

圖靈學院
科楠
2025-4-14

 

    在 Google DeepMind 於 2025 年 4 月釋出的白皮書《An Approach to Technical AGI Safety and Security》中,團隊為如何因應 AGI(人工通用智慧)可能帶來的「嚴重性危害」(severe harm)提供了一套技術性的安全架構。這篇論文特別著眼於兩大高風險源:人為濫用(Misuse)與模型不對齊(Misalignment),並提出一系列從模型訓練到系統部署的防線設計。

以下將從五大面向進行分析:基本假設、四大風險分類、濫用與不對齊的應對策略、關鍵創新觀點,以及整體評價與未來發展建議。

 

一、前提與基本假設:時間有限、敵手未知,但我們不能等到 AI 出事才處理

 

    本論文開宗明義即指出,目前我們面臨的是「證據困境」(evidence dilemma)——即使尚未出現明確的災難性事件,我們也必須主動提出防範機制。此種預警式的策略,是基於幾項重大前提:

 

1. 無人類天花板(No human ceiling):AGI 能力不會止步於人類水準,甚至會超越。


2. 不確定但可能很快的時間表(Timelines):強 AI 可能在 2030 年前問世,因此安全機制需具備「隨時可部署」的特性。


3. 能力加速(Acceleration):AGI 將可自動化研發流程,形成正向加速循環。


4. 近似連續性(Approximate continuity):AI 能力的進展雖快,但不會毫無徵兆地跳躍。

 

這些假設共同支持了作者選擇聚焦於「目前或短期內可行的技術防線」,而非完全依賴政策或哲學論證。

 

二、四大風險類別:從用戶到系統的全局視角

 

論文將 AGI 帶來的潛在風險歸納為四大類,圖表 1提供清晰視覺化:

 

 

圖1. 四大類潛在風險 (Shah et al.2025)

 

- Misuse(濫用):使用者有惡意,如利用 AGI 協助發動網路攻擊。
- Misalignment(不對齊):AI 本身有「自主」意圖,違背開發者目的。
- Mistakes(錯誤):AI 不知道自己造成了傷害,源於世界的複雜性。
- Structural risks(結構風險):多代理人交互下出現系統性問題,如 AI 軍備競賽。

 

其中,「錯誤」與「結構性風險」雖同樣重要,但因對應的技術緩解方式較不具共通性,故本篇聚焦在前兩者。

 

三、如何預防濫用:多層封鎖 AI 危險能力的「入手點」

 

    濫用的定義非常明確:有惡意的人使用 AGI 做壞事。為此,DeepMind 建構出一整套防線3見圖 2,包含:

 

圖2. 我們減少濫用的方法概述(Shah et al.2025)

 

1. 危險能力識別(Dangerous Capability Evaluations)
2. 訓練階段的「能力抑制」與「安全微調」
3. 部署階段的系統級防禦(如 API 設計、安全日誌、用戶分級)


這種分層策略反映了網路安全的「縱深防禦」精神,即不依賴單一防火牆,而是多層協同保護,強調攻防整合思維。

 

四、模型不對齊:當 AI 真的「不聽話」,怎麼辦?

 

    比起濫用,更令人擔憂的是 AGI 自主產生偏差目標的「不對齊風險」。DeepMind 提出雙層防禦策略(見圖 3):

 

圖3. 我們緩解錯置的方法概述(Shah et al.2025)

 

第一層:打造「善良的模型」
- 擴增監督(Amplified Oversight):讓 AI 幫助人類監督 AI,例如模型互審與人類判決。
- 行為引導(Guided Behavior):用自然語言評論、模型內部資訊作為學習信號。
- 強健訓練(Robust Training):使用 adversarial training、online learning 強化泛化能力。

 

第二層:即使出錯也不至於造成災難
- 存取控制(Access Control)與沙箱(Sandboxing)限制模型行動邊界。
- 階層式監控(Hierarchical Monitoring)提升可擴展性。
- 透明與不確定性建模強化人機合作決策。

 

五、獨特觀點與評論:DeepMind 的「工程導向安全哲學」

 

1. 聚焦可部署解法:專注於現階段可與現有 ML pipeline 整合的策略,讓防禦機制能即時上線。


2. 導入「安全論證」概念:不是只靠測試說「應該安全」,而是用邏輯與實證提出「為何這模型不會造成嚴重性傷害」。


3. 強調 AI 自助安全監督:透過 amplified oversight 與自動化安全工具,讓 AI 協助審查自己的輸出,類似「AI 查核 AI」。


4. 誠實揭露研究界限:對於像 superintelligence、目標漂移等極端風險坦然表示「現階段無法有效處理」,並建議需後續研究。

 

六、結合台灣法規與政策建議

 

    面對 AGI 帶來的潛在風險,台灣在立法與政策層面應未雨綢繆,以下為三項建議方向:

 

1. 建立「高風險 AI 系統登記與審查制度」:仿照歐盟 AI Act 之分類機制,針對具危險能力的 AGI 模型(如具備自動程式編寫、滲透測試、網路掃描功能),實施強制性事前審查與登錄。

 

2. 制定「AI 安全測試標準」:鼓勵產官學研共同制定紅隊測試規範與壓力測試標準,並由工研院、資安會或台灣 AI 行政監理機構執行第三方測評。

 

3. 引導 AI 開發者導入「自律安全報告書」制度:類似財報、資安聲明,要求 AGI 開發單位定期提交包含 capability evaluations、安全措施、監督邏輯與模型訓練透明度的技術安全報告,以利政府審查與公眾監督。

 

此類政策不僅有助於台灣融入全球 AI 治理框架,也能防止產業過度競爭而忽視安全紅線。

 

七、評論與展望:安全不是終點,而是工程馬拉松

 

    這篇白皮書最重要的貢獻,在於將 AGI 安全從抽象哲學轉化為具體工程任務,並提出清楚的技術模組、風險類別、訓練與部署應對策略。然而仍有以下挑戰待克服:

- 過度仰賴現行神經網路架構,缺乏對「架構轉換」後的風險預判能力。
- 對於「AI 作為研究者」的安全性控制尚未有明確配套,可能導致自我強化型風險。
- 人類監督機制的效能與偏誤問題未徹底處理,可能成為 amplified oversight 的瓶頸。

 

結語:我們不該等到「AI 火燒眉毛」才思考滅火器怎麼用

 

    Google DeepMind 所提出的技術性 AGI 安全架構,是目前最具系統性且工程導向的策略之一。即使它不是萬靈丹,卻提供了產業界邁向「可控、安全的通用 AI」的重要起點。

 

真正的智慧,不只在於打造出強大 AI,更在於建立起與這些智慧共處的安全機制與信任架構。

 

 

Reference:
Google DeepMind: An Approach to Technical AGI Safety and Security