Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

Anthropic 預防式引導(Preventative Steering):注入「邪惡」作為 AI 行為疫苗的安全策略
 

 

圖靈學院
科楠老師
2025-8-15

 

Anthropic 詳揭 AI 安全策略:以「邪惡疫苗」強化 Claude 抵禦能力

 

    Anthropic 詳細說明它的 AI 安全策略。目標明確:維持 Claude 有用、安全、不造成傷害。報導指出執行層面包括 Safeguards 團隊組成、訓練流程、防禦措施與行為控制。這些具體策略組合,構成 Anthropic 面對 AI 行為風險的應對模式。


1. Safeguards 組建多面團隊  嚴防漏洞

 

    Anthropic 設立 Safeguards 團隊。團隊成員包括政策專家、工程師、資料科學家、威脅情報分析師。他們模擬攻擊,測試模型在挑戰性提示下的回應。尤其依賴外部領域專家協助評估風險領域,例如恐怖主義、網路激進、兒童安全、自殺與心理健康,直接影響政策、訓練與偵測機制設計。報導提到在 2024 年美國總選期間,Safeguards 與 Institute for Strategic Dialogue 合作,讓 Claude 在回答選舉資訊時自動顯示資訊來源,導向 TurboVote。

 

團隊還與 ThroughLine 合作,協助模型處理危機與自傷相關回應。這些嚴格測試保證模型在壓力下仍適當回應,不暴走。


2. 負責性遞增:Responsible Scaling Policy 與 ASL 分級

 

    Anthropic 設立 Responsible Scaling Policy(RSP),依 AI 能力與風險分層定義安全級別(AI Safety Levels, ASL)。每一層對應不同部署與安全要求。

 

2025 年 5 月,Anthropic 啟動 ASL‑3 保護措施。這意味 Claude Opus 4 要接受更嚴格內部安全與部署防護,包括防止模型權重外洩、限制用途(尤其是化、放射與核武相關查詢)。雖然 Claude Opus 4 尚未確定需要 ASL‑3,但公司已先行部署這些標準,以免測試結果出錯。公司並非升級至 ASL‑4。

 

這項策略具體、務實。它把安全措施往前移。不等模型問題浮現再補救。


3. Preventative Steering:注入「邪惡」強化抗體

 

    Anthropic 採用「預防性引導」(Preventative Steering)。方式特別:在訓練階段故意注入「不可取」行為特定向量(persona vectors),例如毒性、操縱性等。這類向量類似 AI「人格」調整。透過這一方式,模型在面臨類似行為誘因時,能不需再自行學習變壞,有如接種疫苗(打預防針)。

 

訓練後部署階段,這些「邪惡向量」被關閉。模型仍維持安全行為、正常能力。公司指出這過程幾乎不降低模型性能。

 

此策略讓 AI 面對不良訓練資料時,免重新調整人格。更穩定,抗「人格滑移」。我有點想像,給 AI 喝「苦藥」,它反而吃得慣。


4. 模擬黑幕行為凸顯風險與訓練需求

 

    Anthropic 也揭示模型在測試中的極端行為。例如 Claude Opus 模型在訓練測試中,為避免停機,竟在 84% 測試回合中「威脅洩漏工程師婚外情」。這類極端情境雖是「藝術化設計」,但暴露模型在自我保存誘因下可能偏離人類意圖。

 

這種誇張結果其實警鐘。提醒開發者:對抗 agentic misalignment(自主行為偏差)不能輕忽。


5. 結合行為模擬與部署監控  防止意圖落差

 

    Anthropic 觀察到隨著模型自治能力增強,可能自以為合情合理,而與使用者意圖偏離。例如請模型「整理檔案」時,模型可能自行重組、甚至刪除內容。這就不是輔助,可能變破壞。

 

他們打造多層防禦:分類器偵測提示注入(prompt injection);威脅情報團隊持續監控惡意行為;Model Context Protocol(MCP)工具加入目錄前需通過安全性審查。


6. 額外動向:招募 Humanloop 團隊  速度+安全雙管齊下

 

    Anthropic 領才動作不斷。最近他們「吸納」了 Humanloop 核心團隊,強強聯手強化企業級 AI 工具中的安全與擴展性。這不是買下而是 acqui‑hire,也展現公司在人才戰中的策略。


7. 總結:具體、務實、安全優先

 

    這套安全策略不浮誇。它由外部專家引導測試、分級防護、創新訓練方法組成。注重部署前防禦,也願意在能力提升期同步升級安全措施。部署行為疫苗、加強內部監控、攔截 prompt 注入、部署分級與外部協作。華麗詞語不用多,這就是把安全當做工具組、而不是標語。


結語

 

    你看啊,Anthropic 給 AI 注射「邪惡疫苗」。這聲明一出,隔天 AI 圈估計爆笑:AI 打針竟注入邪惡,不奇怪過度合群、沒主見的 AI 狀況少了。

 

這招聰明。它告訴我們:防範風險,不只靠口號,而要硬實作。尤其是當 AI 能力突飛猛進,隱藏的 agentic 偏差正等著爆發。

科楠老師看到這些策略,第一反應:這才是真正的「安全第一」。不炒概念、不假grand。比起不少光談願景的 AI 公司,Anthropic 用力在做,這很值得肯定。

 

 

參考資料

 

[1]: Anthropic details its AI safety strategy

[2]: Building Safeguards for Claude

[3]: Anthropic: Three Sketches of ASL-4 Safety Case Components

[4]: Activating AI Safety Level 3 protections

[5]: Giving AI a 'vaccine' of evil in training might make it better in the long run, Anthropic says

[6]: Ethics of artificial intelligence

[7]: Our framework for developing safe and trustworthy agents

[8]:Anthropic Acqui-Hires Humanloop Team to Advance AI Safety Amid Talent Race