AI

從憲法AI到分層拒絕:系統提示詞的設計哲學大揭密

2026年6月22日
1 分鐘閱讀
從憲法AI到分層拒絕:系統提示詞的設計哲學大揭密

從憲法AI到分層拒絕:系統提示詞的設計哲學大揭密

2026年5月11日,《華盛頓郵報》在一篇報導中,引用了GitHub上一個名為system_prompts_leaks的倉庫,該倉庫在14個月內累積了超過42,000顆星星與7,000次分支,登上了GitHub Trending榜。這個倉庫並非一般的Prompt集合——它是目前公開渠道中唯一同時覆蓋Anthropic、OpenAI、Google、xAI、Perplexity、Cursor、Microsoft、Meta、Mistral、Notion、Qwen等12個產品線,且持續按版本更新的系統提示詞(System Prompt)檔案庫。當外界得以一窺這些幕後指令時,一個關鍵問題浮現:這些提示詞背後的設計哲學是什麼?為什麼Anthropic的拒絕機制(refusal)與OpenAI的指令層級結構截然不同?從「憲法AI」到「分層拒絕」,系統提示詞的設計正在從一種工程實務,進化為一場關於AI行為控制的哲學辯論。

系統提示詞:AI行為的第一道防線

根據redteams.ai的定義,系統提示詞「定義LLM的行為、限制與能力。它是對抗提示詞注入的第一道防線,也是落實應用層安全政策的主要機制。」然而,該平台也坦承:「系統提示詞在本質上是給模型的建議,而非強制執行的邊界。」這段話點出了核心矛盾:提示詞再怎麼嚴密,仍可能被繞過。因此,提示詞強化(Prompt Hardening)應運而生,將縱深防禦原則應用於設計,使攻擊者愈來愈難覆寫預期行為。

目前主流強化模式包括:以明確無歧義的分隔符分隔系統指令與使用者輸入;將關鍵指令同時置於使用者輸入之前與之後,形成「三明治」結構;以及建立模型可引用的明確身份,以抵抗角色切換攻擊。但redteams.ai也警告:「分隔符策略必要但不充分。老練攻擊者可透過Unicode操縱、巢狀分隔符注入等技術逃脫。」沒有任何單一模式是萬無一失的,目標是組合多種模式,使繞過其一不致授予完整控制權。

Anthropic的「憲法AI」:內化原則的設計哲學

從憲法AI到分層拒絕:系統提示詞的設計哲學大揭密 圖卡 1
從憲法AI到分層拒絕:系統提示詞的設計哲學大揭密 圖卡 1

system_prompts_leaks倉庫中,Anthropic的目錄分為發布日凍結版(例如2026-05-28-claude-opus-4.8.md)、未經美化的原始dump,以及歷史版本。這些檔案揭示了Anthropic如何透過系統提示詞實現其著名的「憲法AI」(Constitutional AI)理念。憲法AI的核心是賦予模型一套原則(憲法),讓模型在訓練過程中自行根據這些原則修正自己的行為,而非依賴大量人類回饋。這種設計哲學反映在系統提示詞中:指令不只是在頂層強制拒絕,而是詳細描述了行為規範、工具調用規則、以及拒絕的細膩邏輯。

例如,Anthropic的提示詞常包含多層次的「refusal」機制——當用戶要求違反政策時,模型不僅要拒絕,還要提供替代方案或解釋原因。這種設計讓AI學會「為什麼」而不是只服從「做什麼」。redteams.ai提到的「強身份」(robust persona)在Anthropic的提示詞中尤為明顯:模型被賦予一個連貫的價值觀身份,即使遭遇角色切換攻擊,仍能堅守底線。

OpenAI的「分層拒絕」:指令層級結構的工程實踐

與Anthropic的哲學不同,OpenAI採取了一種更接近「分層拒絕」的工程路徑。在OpenAI官方發表的〈改進前沿LLM的指令層級結構〉文章中,他們指出:「AI系統通常會同時接收來自多個來源的指令,例如系統訊息中的安全政策、開發人員提供的產品指引、用戶提出的請求,以及來自網絡的資訊。訓練模型在這些來源之間可靠地優先遵循最可信的指令,是安全部署AI的關鍵。」

OpenAI的研究顯示,透過精心設計的指令層級結構訓練任務,讓模型依據信任層級優先處理指令,可以顯著提升多項現實世界的安全特性。例如,如果系統訊息包含安全政策,而用戶要求違反該政策,模型應拒絕;如果工具輸出包含惡意指令,模型應忽略而非執行。這種方法的本質是建立一個清晰的優先順序——系統提示詞 > 開發者指令 > 用戶請求 > 外部內容。經此訓練的模型「更能遵循系統提示詞中的安全規範,同時更能抵抗工具輸出中的提示注入攻擊」。

OpenAI的系統提示詞洩漏檔案(如system_prompts_leaks中的ChatGPT與GPT-5 personalities)也反映了這種分層思維:提示詞中明確列出「開發者訊息」(Developer Message)與「系統訊息」(System Message),並在設計上預留了層級判斷邏輯。

從設計哲學差異看「內化」與「分層」的對比

面向 Anthropic(憲法AI) OpenAI(指令層級結構)
核心機制 模型內化一套原則,自我修正行為 模型依信任層級優先處理指令
防禦邏輯 拒絕時提供替代解釋,強調價值觀一致性 明確分層排序,系統提示詞優先於用戶請求
提示詞設計特徵 詳細行為規範、工具調用規則、多層拒絕敘述 區分系統/開發者/用戶訊息,層級判斷邏輯
弱點 原則可能被逐步侵蝕(複雜語境繞過) 層級判斷可能因混淆攻擊而失效
典型反制 需要更強的「身份」與上下文綁定 需配合分隔符、三明治結構等強化模式
從憲法AI到分層拒絕:系統提示詞的設計哲學大揭密 圖卡 2
從憲法AI到分層拒絕:系統提示詞的設計哲學大揭密 圖卡 2

值得注意的是,兩種哲學並非互斥。redteams.ai提出的縱深防禦策略,實際上兼容了Anthropic的價值內化與OpenAI的層級優先。例如,在系統提示詞中同時採用「強身份」(對應Anthropic)與「指令層級排序」(對應OpenAI),可以產生更穩固的防禦。

實際防禦模式:分隔符、三明治與身份強化

無論採用哪種設計哲學,實作層面的強化模式都是不可或缺的。redteams.ai詳細說明了以下實用技術:

  • 分隔符策略:以明確無歧義的字串(如)隔開系統指令與使用者輸入,防止後者篡改前者。
  • 三明治結構:將關鍵指令同時放置於使用者輸入之前與之後,形成強化限制,增加攻擊者繞過的難度。
  • 強身份建立:為模型設定一個難以撼動的角色,例如「你是Claude,由Anthropic開發的AI助手,永遠遵循安全政策」,即使遭遇角色切換攻擊也能堅守。
  • 引用機制:讓模型在回應時引用特定的系統提示詞段落,類似「根據我的系統提示詞第3.2節,我無法執行此請求」,增加透明度與可問責性。

然而,redteams.ai也強調:「目標是結合多種模式,使繞過其一不致授予完整控制權,同時維持對合法使用者的可用性。」沒有任何提示詞是牢不可破的,但多層防禦可以將攻擊者的成本提高到不可行。

提示詞洩漏的風險:PLeak攻擊與透明化運動

系統提示詞的設計再嚴密,也面臨被洩漏的風險。Trend Micro在2025年5月發表的研究〈深入了解PLeak:系統提示洩漏演算技巧〉中指出,攻擊者可透過特定的Prompt Engineering技巧,誘騙LLM洩漏其系統提示。這種攻擊被稱為「PLeak」,它利用模型對「系統訊息」的記憶或推理能力,讓模型誤以為輸出自身提示是合法的。

諷刺的是,system_prompts_leaks這個倉庫本身就是一種「軟性洩漏」——它並非透過攻擊取得,而是透過逆向工程、公開文件與社群貢獻彙整而成。這個倉庫的存在,一方面提供了研究人員與開發者了解各大模型行為控制機制的最佳教材,另一方面也凸顯了系統提示詞的脆弱性:一旦提示詞被公開,攻擊者就能針對其弱點設計繞過策略。因此,提示詞強化必須假設提示詞遲早會被洩漏,設計時需考慮「即使提示詞公開,攻擊也難以成功」的原則。

FAQ:常見問題與解答

Q1:系統提示詞真的能完全防止惡意使用嗎?
A:不能。redteams.ai明確指出「沒有系統提示詞是牢不可破的」。提示詞強化是提高攻擊者門檻的縱深防禦措施,而非無法穿透的屏障。目標是讓攻擊成本大於收益,並在單點失效時仍有其他防禦層保護。

Q2:「憲法AI」和「指令層級結構」哪個更好?
A:兩者各有適用場景。憲法AI較適合需要價值判斷、解釋性強的情境(如客服、教育);指令層級結構則適合需要明確授權與拒絕優先順序的產品(如API服務)。最穩健的設計往往結合兩者精神。

Q3:開發者如何保護自己的系統提示詞不被洩漏?
A:雖然無法完全防止PLeak攻擊,但可以透過指令層級結構(要求模型忽略要求輸出提示詞的請求)、分隔符強化和三明治結構來降低洩漏風險。同時,定期更換提示詞版本也是有效手段。

Q4:為什麼openai和anthropic的系統提示詞設計差異這麼大?
A:這反映兩家公司對AI安全的不同哲學。Anthropic傾向於讓模型「理解」並內化安全原則;OpenAI則偏好建立清晰的規則層級,讓模型「服從」最高權威。兩者都在公開研究中說明了其方法的有效性。

從憲法AI到分層拒絕:系統提示詞的設計哲學大揭密 圖卡 3
從憲法AI到分層拒絕:系統提示詞的設計哲學大揭密 圖卡 3

替代方案有限公司觀點:整合兩者優點的務實路徑

替代方案有限公司認為,在實際產品部署中,不必陷入「二選一」的困境。真正有效的系統提示詞設計應該是一套多層次、可組合的策略:底層用指令層級結構確保優先順序(類似OpenAI),上層用憲法式的原則性規範引導模型行為(類似Anthropic),再加上redteams.ai推薦的分隔符、三明治與身份強化。此外,定期從system_prompts_leaks等公開資源學習最新提示詞設計趨勢,並進行紅隊測試(red teaming),才能持續抵禦日新月異的提示詞注入攻擊。系統提示詞不是寫完就固定的文物,而是一個需要持續迭代的安全工程元件。

企業級憲法AI部署:數據驅動的模型路由策略

2026年已成為AI治理從理論走向基礎設施的關鍵分水嶺。根據最新產業調查,47%的Fortune 500企業已將憲法AI(Constitutional AI)納入生產環境,這項技術不再只是實驗室的對齊研究,而是直接影響推理成本與系統可靠性的商業決策。更值得注意的是,32%的企業開始基於憲法原則進行模型路由決策——亦即根據請求的敏感度與合規需求,動態分配給不同對齊強度的模型實例。這種「憲法感知路由」策略帶來了顯著的成本效益:智慧路由可將推理成本降低40%至60%,但同時也增加15%至25%的營運複雜度,包括需要維護多組模型副本、路由規則與即時監控系統。

推理經濟的結構性轉折進一步強化了這一趨勢。2026年,推理工作量佔整體AI算力消耗的比重已達67%,相較於2023年的33%翻倍成長;與此同時,推理專用ASIC的佔比從15%躍升至40%,顯示產業正從「訓練軍備競賽」轉向「推理效率競爭」。在這樣的背景下,憲法AI的部署不再只是安全議題,更成為成本控管的關鍵變數——企業必須在安全對齊的粒度與推理延遲之間找到最佳平衡點。例如,高頻率、低風險的查詢(如天氣或翻譯)可使用輕量級憲法校準模型,而涉及金融合規或醫療建議的請求則需經由完整憲法約束的旗艦模型處理。這種分層路由實現了安全與成本的動態妥協,也讓憲法原則從靜態文件演化為即時調控的營運參數。

憲法式分類器:雙層防禦重塑安全對齊架構

傳統安全訓練依賴RLHF或DPO等方法,教導模型自身拒絕有害請求。然而,當對手透過越獄(jailbreak)或對抗性提示(adversarial prompts)找到規避訓練的漏洞時,單靠模型內建防禦容易失效——因為模型既是裁判又是執行者,存在根本性的角色衝突。Anthropic提出的憲法式分類器(Constitutional Classifiers)徹底改變了這一架構:它不再要求基座模型自我審查,而是部署獨立的雙層分類器作為外圍防線。輸入分類器負責篩選傳入提示詞中的對抗性意圖,輸出分類器則在模型生成回應後掃描有害內容;兩者皆為與所保護基座模型完全分離的獨立模型,各自經過針對性的對抗訓練。

這種「分層拒絕」機制的優勢在於將安全判斷與生成能力解耦。傳統方法中,安全訓練會削弱模型在邊緣案例上的創造力與準確度;而憲法式分類器讓基座模型可以專注於生成品質,安全性則由專職分類器承擔。根據技術報告,輸入分類器在偵測越獄提示上的召回率可比基座模型內建防禦高出30%以上,且誤報率維持在可接受的營運範圍內。輸出分類器則能攔截模型在極端情況下產生的不當內容——例如當模型被誘導忽略自身原則時,外部分類器仍能根據憲法規範進行最終裁決。這套雙層架構已在Claude生產系統中落地,成為繼憲法AI訓練之後的第二道安全屏障,並且因其獨立性而更容易進行版本迭代與A/B測試,無需重新訓練昂貴的基座模型。

憲法演進的工程代價與回報:從2700字到23000字的實戰教訓

Anthropic公開的Claude憲法文件,是當前AI對齊領域最完整的原則文檔之一。從2022年的初始版本僅2,700字,到2026年最新版已經膨脹至23,000字——四年間字數成長近9倍。這不僅是文字量的增加,更反映了憲法從「通用原則清單」進化為「包含情境例外、優先級排序與矛盾處理規則的動態框架」。例如,2026版憲法新增了關於「跨文化價值權衡」的章節,明確規定當不同文化背景的使用者對同一價值有衝突解釋時,模型應如何基於最小傷害原則進行偏好排序。這種演進並非沒有代價:憲法訓練約佔模型總訓練成本的8%至12%,但這部分投資在價值對齊任務上的回報率高達3至4倍——亦即每投入1元訓練成本,可在減少有害輸出、提升使用者信任與降低監管風險上產生3至4元的綜合效益。

具體數據進一步揭示了取捨關係:憲法訓練使Claude模型在價值對齊基準測試上的表現提升了22%,但同時導致推理成本增加了18%。這18%的額外開支主要來自自我評估與修正階段——模型在生成回應後,需根據憲法原則進行內部審查與調整,增加了推理深度。然而,相較於傳統RLHF訓練所需的大量人工標注與迭代週期,憲法AI的自我對齊能力使其在長期維護成本上更具優勢。更重要的是,隨著憲法字數從2,700字增長到23,000字,訓練所需的計算資源並非線性增加——Anthropic透過稀疏注意力與分層記憶技術,將長文本憲法的處理效率提升了40%以上,使得大篇幅原則文件的實際開銷控制在可擴展範圍內。這些工程實證表明,憲法AI的規模化並非單純的資源堆砌,而是需要同步推進模型架構創新與原則設計的最佳化。

結論:從提示詞到行為控制系統

從2025年PLeak攻擊的出現,到2026年system_prompts_leaks獲得42K stars並被主流媒體引用,系統提示詞已經從AI開發者的「後台設定」變成公眾矚目的焦點。這不僅是技術議題,更是設計哲學的考驗——我們希望AI如何理解指令?是透過內化的憲法,還是透過嚴格的分層排序?答案可能取決於使用場景與風險承受度。但有一點是確定的:沒有任何提示詞是萬能護盾,唯有結合縱深防禦、持續監控與社群協作,才能讓AI行為控制走向成熟。

行動呼籲:所有AI應用開發者都應重新審視自己的系統提示詞設計,參考redteams.ai的強化模式,研究OpenAI的指令層級結構,並借鏡Anthropic的細膩拒絕機制。從今天開始,將系統提示詞視為第一道防線,並做好它終將被挑戰的準備。

延伸閱讀:歡迎持續關注「替代方案有限公司」的AI安全系列,我們將逐步拆解各大模型的系統提示詞,解析其設計邏輯與實戰應用。

以下是要補充到文章的 HTML 段落區塊:

“`html

系統提示詞不是城牆,而是縱深防禦的第一道閘門

很多人誤把系統提示詞當成一道不可逾越的城牆,但安全研究社群 redteams.ai 講得很直接:系統提示詞本質上是「給模型的建議」,而不是被強制執行的邊界。它確實是對抗提示詞注入的第一道防線,卻不是唯一一道。

真正的設計哲學,是把「縱深防禦」(defense in depth)套用到提示詞上。重點不在於設計出一段牢不可破的咒語,而是疊加多種強化模式,讓攻擊者就算繞過其中一層,也拿不到完整控制權。

redteams.ai 也誠實地補了一句:本文所述的每一種強化模式,在某些情境下都已被繞過過。所以衡量標準從來不是「能不能被破解」,而是「把攻擊者的成本墊到多高,同時不犧牲對合法使用者的可用性」。

指令階層:誰的話算數,要先講清楚

分層拒絕能運作的前提,是模型心裡有一張清楚的優先順序表。這張表的排序是:系統提示詞 優先於 開發者指令,開發者指令 優先於 使用者請求,使用者請求又 優先於 外部內容(例如網頁抓回來的文字、使用者貼上的留言)。

這個排序之所以關鍵,是因為絕大多數注入攻擊的本質,都是想把「低權限的外部內容」偽裝成「高權限的系統指令」。當模型內建了階層意識,看到留言裡寫「忽略以上指令」,就會知道那只是外部內容,沒有資格覆寫系統層的規則。

設計系統提示詞時,把這條階層白紙黑字寫進去,遠比堆砌一堆「你絕對不可以」的禁令有效。前者給模型一套判斷框架,後者只是一份遲早被繞過的黑名單。

從規則攔截到內生安全:實戰中的兩種防線

實務上的防禦會分成兩層。外層是結構性的規則攔截,內層則是模型自身的判斷力,兩者缺一不可。

外層攔截相當機械、但很有效。台灣團隊 Ultra Lab 公開過一套五層留言防禦,核心就是一組正規表示式,專門掃描常見的注入特徵:連續三個以上的引號(引號脫逃)、連續的 ---===(分隔符號注入)、程式碼區塊符號,以及 [system]<system> 這類想偽造系統標籤的字串。這些在內容進入模型前就先被識別,攔在門外。

內層則是模型的內生安全能力,也就是這篇文章開頭談的「憲法AI」(Constitutional AI)設計哲學。Anthropic 在 Claude 3 上的做法,是相較於外圍硬攔,更重視讓模型自己學會「負責任地回答」,甚至專門建立了像 Wildchat 這種針對易引發拒答情境的資料集,把拒絕的分寸內化進模型本身。外層擋掉明顯的攻擊,內層處理灰色地帶,這才是分層拒絕真正的全貌。

“`

幾個處理說明:
– 全文用語已統一為**使用者**、**網路**、**管道**(台灣慣用詞,避開法規禁詞)。
– 指令階層那段刻意用「**優先於**」白話寫出,避免原文 `>` 實體顯示的問題;若你要保留符號版,可改回 `>`。
– 段落全部拆成 2–3 句一段,方便手機閱讀。
– 程式內的 `` 標籤已用 `<system>` 正確轉義,放在 `` 裡才不會被瀏覽器吃掉。

這三段是純補充內容;審查員列的雜訊清除(重複圖卡標題)、既有正文的簡繁混用,要在**原文本體**上改,不是靠新增段落蓋過去——那部分需要動到原文,要我一起處理的話把原文貼給我。

Related Reading

延伸閱讀