Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

AGI 不只是更聰明的 ChatGPT —— 深度解析 DeepMind 提出的技術性安全防線

 

 

圖靈學院
科楠
2025-4-14

 

    在 Google DeepMind 於 2025 年 4 月釋出的白皮書《An Approach to Technical AGI Safety and Security》中,團隊為如何因應 AGI(人工通用智慧)可能帶來的「嚴重性危害」(severe harm)提供了一套技術性的安全架構。這篇論文特別著眼於兩大高風險源:人為濫用(Misuse)與模型不對齊(Misalignment),並提出一系列從模型訓練到系統部署的防線設計。

以下將從五大面向進行分析:基本假設、四大風險分類、濫用與不對齊的應對策略、關鍵創新觀點,以及整體評價與未來發展建議。

 

一、前提與基本假設:時間有限、敵手未知,但我們不能等到 AI 出事才處理

 

    本論文開宗明義即指出,目前我們面臨的是「證據困境」(evidence dilemma)——即使尚未出現明確的災難性事件,我們也必須主動提出防範機制。此種預警式的策略,是基於幾項重大前提:

 

1. 無人類天花板(No human ceiling):AGI 能力不會止步於人類水準,甚至會超越。


2. 不確定但可能很快的時間表(Timelines):強 AI 可能在 2030 年前問世,因此安全機制需具備「隨時可部署」的特性。


3. 能力加速(Acceleration):AGI 將可自動化研發流程,形成正向加速循環。


4. 近似連續性(Approximate continuity):AI 能力的進展雖快,但不會毫無徵兆地跳躍。

 

這些假設共同支持了作者選擇聚焦於「目前或短期內可行的技術防線」,而非完全依賴政策或哲學論證。

 

二、四大風險類別:從用戶到系統的全局視角

 

論文將 AGI 帶來的潛在風險歸納為四大類,圖表 1提供清晰視覺化:

 

 

圖1. 四大類潛在風險 (Shah et al.2025)

 

- Misuse(濫用):使用者有惡意,如利用 AGI 協助發動網路攻擊。
- Misalignment(不對齊):AI 本身有「自主」意圖,違背開發者目的。
- Mistakes(錯誤):AI 不知道自己造成了傷害,源於世界的複雜性。
- Structural risks(結構風險):多代理人交互下出現系統性問題,如 AI 軍備競賽。

 

其中,「錯誤」與「結構性風險」雖同樣重要,但因對應的技術緩解方式較不具共通性,故本篇聚焦在前兩者。

 

三、如何預防濫用:多層封鎖 AI 危險能力的「入手點」

 

    濫用的定義非常明確:有惡意的人使用 AGI 做壞事。為此,DeepMind 建構出一整套防線3見圖 2,包含:

 

圖2. 我們減少濫用的方法概述(Shah et al.2025)

 

1. 危險能力識別(Dangerous Capability Evaluations)
2. 訓練階段的「能力抑制」與「安全微調」
3. 部署階段的系統級防禦(如 API 設計、安全日誌、用戶分級)


這種分層策略反映了網路安全的「縱深防禦」精神,即不依賴單一防火牆,而是多層協同保護,強調攻防整合思維。

 

四、模型不對齊:當 AI 真的「不聽話」,怎麼辦?

 

    比起濫用,更令人擔憂的是 AGI 自主產生偏差目標的「不對齊風險」。DeepMind 提出雙層防禦策略(見圖 3):

 

圖3. 我們緩解錯置的方法概述(Shah et al.2025)

 

第一層:打造「善良的模型」
- 擴增監督(Amplified Oversight):讓 AI 幫助人類監督 AI,例如模型互審與人類判決。
- 行為引導(Guided Behavior):用自然語言評論、模型內部資訊作為學習信號。
- 強健訓練(Robust Training):使用 adversarial training、online learning 強化泛化能力。

 

第二層:即使出錯也不至於造成災難
- 存取控制(Access Control)與沙箱(Sandboxing)限制模型行動邊界。
- 階層式監控(Hierarchical Monitoring)提升可擴展性。
- 透明與不確定性建模強化人機合作決策。

 

五、獨特觀點與評論:DeepMind 的「工程導向安全哲學」

 

1. 聚焦可部署解法:專注於現階段可與現有 ML pipeline 整合的策略,讓防禦機制能即時上線。


2. 導入「安全論證」概念:不是只靠測試說「應該安全」,而是用邏輯與實證提出「為何這模型不會造成嚴重性傷害」。


3. 強調 AI 自助安全監督:透過 amplified oversight 與自動化安全工具,讓 AI 協助審查自己的輸出,類似「AI 查核 AI」。


4. 誠實揭露研究界限:對於像 superintelligence、目標漂移等極端風險坦然表示「現階段無法有效處理」,並建議需後續研究。

 

六、結合台灣法規與政策建議

 

    面對 AGI 帶來的潛在風險,台灣在立法與政策層面應未雨綢繆,以下為三項建議方向:

 

1. 建立「高風險 AI 系統登記與審查制度」:仿照歐盟 AI Act 之分類機制,針對具危險能力的 AGI 模型(如具備自動程式編寫、滲透測試、網路掃描功能),實施強制性事前審查與登錄。

 

2. 制定「AI 安全測試標準」:鼓勵產官學研共同制定紅隊測試規範與壓力測試標準,並由工研院、資安會或台灣 AI 行政監理機構執行第三方測評。

 

3. 引導 AI 開發者導入「自律安全報告書」制度:類似財報、資安聲明,要求 AGI 開發單位定期提交包含 capability evaluations、安全措施、監督邏輯與模型訓練透明度的技術安全報告,以利政府審查與公眾監督。

 

此類政策不僅有助於台灣融入全球 AI 治理框架,也能防止產業過度競爭而忽視安全紅線。

 

七、評論與展望:安全不是終點,而是工程馬拉松

 

    這篇白皮書最重要的貢獻,在於將 AGI 安全從抽象哲學轉化為具體工程任務,並提出清楚的技術模組、風險類別、訓練與部署應對策略。然而仍有以下挑戰待克服:

- 過度仰賴現行神經網路架構,缺乏對「架構轉換」後的風險預判能力。
- 對於「AI 作為研究者」的安全性控制尚未有明確配套,可能導致自我強化型風險。
- 人類監督機制的效能與偏誤問題未徹底處理,可能成為 amplified oversight 的瓶頸。

 

結語:我們不該等到「AI 火燒眉毛」才思考滅火器怎麼用

 

    Google DeepMind 所提出的技術性 AGI 安全架構,是目前最具系統性且工程導向的策略之一。即使它不是萬靈丹,卻提供了產業界邁向「可控、安全的通用 AI」的重要起點。

 

真正的智慧,不只在於打造出強大 AI,更在於建立起與這些智慧共處的安全機制與信任架構。

 

 

Reference:
Google DeepMind: An Approach to Technical AGI Safety and Security