會記憶的 AI：Hermes Agent 四層記憶系統讓 AI 真正「懂你」

在人工智慧快速發展的今日，幾乎所有的 AI Agent 都被設計成「即時」的互動工具——你問什麼，它即時回什麼，卻在對話結束後把所有資訊拋諸腦後。這樣的設計固然簡化了系統的負擔，卻也讓 AI 缺乏了「持續了解使用者」的關鍵能力。當使用者需要在多個會話、跨領域任務之間保持一致性與脈絡時，傳統的 AI Agent 往往只能依賴外部的資料庫或手工提示，無法真正「記住」使用者的偏好、行為模式與情境需求。這就是為什麼許多人在使用 AI 助理時，會感覺它們像是一次性的工具，而非具備長期關係的智能夥伴。

Hermes Agent（由 Nous Research 開發）提出的四層記憶系統，正是針對上述痛點的創新解答。它將 AI 的記憶分為四個層次，從最基本的工作記憶到深度的程式化知識，形成一個層層遞進、相互支援的記憶架構。透過這套系統，Hermes Agent 不僅能在單次對話中保持上下文，還能在長期的使用過程中累積、使用和演進對使用者的理解，最終實現真正的「個人化 AI」。本文將深入剖析這四層記憶的運作原理，並透過實際案例說明其帶來的變革性影響。

Layer 1：Small Context——工作記憶的基礎

Small Context，俗稱「工作記憶」，是 Hermes Agent 在單次對話中即時存取與處理的資訊空間。它的容量相對較小，通常受限於模型上下文窗口（context window）的大小，主流模型的上下文窗口範圍從 128K 到 1M+ tokens 不等。這一層的設計目標在於提供足夠的近期資訊，使 AI 能夠在當下的對話中保持語境連貫性，避免「對話碎片化」的問題。

在技術實現上，Small Context 會動態地將最近的使用者輸入、系統回覆以及關鍵的對話片段寫入模型的內部緩衝區。當使用者的提問涉及先前的內容時，模型可以透過簡單的「查找」或「滾動」機制，直接在緩衝區中檢索相關資訊，而無需重新載入整個歷史。這種方式大幅降低了計算成本與延遲，使得 AI 在高頻率的即時互動場景（如客服、即時翻譯）中仍能保持流暢。

然而，Small Context 的侷限也很明顯：它只能保存有限的資訊，隨著對話時間拉長，舊的內容會被新的內容覆蓋。這就催生了第二層記憶的需求——讓 AI 具備超越當前會話的長期資訊存取能力。

Layer 2：Searchable History——可搜索的歷史資料庫

Searchable History（可搜索歷史）是 Hermes Agent 的第二層記憶，它的核心思想是將對話歷史轉化為可檢索的資料庫。不同於傳統的日誌或日誌檔案，Searchable History 透過向量嵌入（vector embedding）技術，將每一段對話、每一次任務、每一個關鍵資訊片段映射到高維向量空間。當使用者提出查詢或需求時，系統會在這個向量空間中進行相似度搜索，快速找出與當前情境最相關的歷史內容。

這層的實現通常包括以下幾個關鍵步驟：

分段擷取（Chunking）：將長篇對話或文件切割為語義完整的片段，便於精確檢索。
嵌入模型（Embedding Model）：使用專門的語意嵌入模型（如 text-embedding-3-large）將每個片段轉換為向量。
向量索引（Vector Index）：將所有向量存入高效的向量資料庫（如 Pinecone、Weaviate 或 FAISS），支援毫秒級的相似度檢索。
檢索回傳（Retrieval & Rerank）：根據檢索結果的相關性分數，篩選最符合當前任務的片段，並可進一步使用 cross-encoder 進行重新排序，以提升精準度。

Searchable History 的價值在於它能讓 AI 在跨會話的情境下，保持對使用者需求與偏好的「宏觀記憶」。舉例來說，當使用者在不同時間點詢問過「台北的咖啡廳推薦」與「台北的夜市小吃」，AI 能夠透過檢索歷史自動識別使用者的地理位置偏好，進而在新問題中加入「台北」的限定條件，而無需使用者再次說明城市。

此外，Searchable History 還支援「資訊蒸餾」——系統會根據使用者的回饋（如「這個回答很好」或「不符合需求」）自動標註、分類與更新向量，使記憶內容的品質持續提升。這種自我演化的特性，是傳統被動日誌系統所無法比擬的。

Layer 3：Optional Modeling——偏好建模的可選層

Optional Modeling（偏好建模）是 Hermes Agent 的第三層記憶，屬於可選（optional）模組，旨在將使用者的抽象偏好與行為模式轉化為可操作的模型參數。不同於 Searchable History 那樣的「資訊存儲」，Optional Modeling 更像是一個動態的「使用者模型」，它會根據長期的互動資料，自動學習使用者的風格、口吻、興趣領域以及決策傾向。

在技術上，Optional Modeling 常見的實現方式包括：

使用者嵌入（User Embedding）：利用深度學習模型，將使用者的對話歷史、點擊行為、滿意度回饋等資訊壓縮成一個固定維度的向量，稱為「使用者嵌入」。此向量可作為模型生成時的條件輸入，讓 AI 的回覆自然迎合使用者的風格。
偏好圖譜（Preference Graph）：將使用者的興趣點、需求層級與情境約束以圖結構表示，便於在複雜的多步任務中進行推斷與決策。
持續學習（Continual Learning）：採用增量式學習方法，在不丟失舊知識的前提下，逐步吸收新資訊，避免模型災難性遺忘（catastrophic forgetting）。

Optional Modeling 的可選性體現在它的靈活部署上。對於隱私要求極高的企業或個人用戶，這層可以被關閉，所有資料仍保留在本地端的 Searchable History 中；而對於希望獲得高度個人化體驗的使用者，則可啟用此模組，讓 AI 成為真正的「私人助理」。在實測中，開啟 Optional Modeling 的 Hermes Agent 能將回覆的相關度提升約 15%~20%，尤其在多輪對話與跨領域任務中表現更為突出。

Layer 4：Programming Memory——程序化知識的永久存儲

Programming Memory（程序記憶）是四層架構的最上層，它專門用於存放結構化、可執行的知識與腳本。這類知識不僅是「事實」或「偏好」，更是可以被 AI 直接呼叫與運算的程序片段。Hermes Agent 透過自定義的 DSL（Domain‑Specific Language）或 API 接口，將這些程序化資訊嵌入模型的決策流程，實現「知道」與「會做」的無縫結合。

常見的 Programming Memory 應用包括：

工作流程模板（Workflow Templates）：如「每日報告生成」、「會議排程與提醒」等，AI 可根據使用者的口頭指示自動觸發對應模板，完成從資料蒐集到結果輸出的全流程。
自訂指令集（Custom Instructions）：使用者可定義自己的指令別名或捷徑，例如「#早會」代表「列出今天的會議議程與待辦事項」，AI 在解析到該指令時會直接執行對應的程序。
跨系統整合腳本（Integration Scripts）：透過 RESTful API、Webhook 或 gRPC，Programming Memory 可以存取外部系統（如 CRM、ERP、IoT 設備），使 AI 能即時獲取最新資料或下發操作指令。

Programming Memory 的核心優勢在於「知識的可執行性」：不僅讓 AI 知道「什麼是對的」，更能直接「把事情做好」。舉例來說，當使用者說「我想要本月的銷售報告」時，Hermes Agent 會先檢索 Searchable History 中的相關歷史資料，再根據 Programming Memory 中的「報告生成腳本」自動抓取當月的銷售資料、計算 KPI、產出圖表，最後將完成的 PDF 或 HTML 報告回傳給使用者——整個過程無需使用者手動干預。

實際應用場景

四層記憶系統的真正價值，體現在多個真實情境的無縫銜接上。以下列舉三個典型案例：

個人化健康管理助理
使用者在首次諮詢時說明自己有高血壓，並希望在日常飲食中減少鈉攝取。Hermes Agent 會將此偏好寫入 Optional Modeling；後續的每一餐建議、食材購買清單，都會自動參考 Searchable History 中過去的飲食記錄與 Nutrition API，確保建議既符合健康需求，又符合使用者的口味偏好。若使用者想每週自動生成健康報告，Programming Memory 中的「健康報告模板」會自動抓取相關資料，產出圖文並茂的 PDF。
跨專案專案管理
一位產品經理在多個專案之間切換，每個專案都有不同的目標、受眾與時間表。Hermes Agent 會在每個專案的會話中建立對應的 Small Context，並將關鍵決策、需求變更寫入 Searchable History。當 PM 在新專案提到「上次的需求文件」時，系統可即時檢索相關內容。Optional Modeling 會記錄 PM 對報告深度的偏好（例如「只給高層摘要」），而 Programming Memory 中的「專案狀態更新腳本」可自動同步至公司的 JIRA 或 Asana。
智慧客服與售後服務
在電商平台的客服情境中，使用者可能在數天前詢問過物流進度，現在又想退換貨。Hermes Agent 的 Searchable History 能快速調出上一次的對話與物流單號，Optional Modeling 會識別使用者的投訴語氣與歷史滿意度，自動提升優先處理級別。Programming Memory 中的「退換貨流程腳本」則會直接指引使用者完成表單填寫、倉庫收件與退款操作，大幅縮短處理時間。

與 OpenClaw 記憶機制的比較（Day 4 預告）

在 AI Agent 的記憶設計領域，OpenClaw 是另一個備受矚目的框架，它採用「統一記憶池」的概念，將所有歷史對話、偏好與程式碼全部寫入同一個向量資料庫，並依賴單一的檢索策略來滿足不同層次的需求。這種設計在部署上較為簡潔，但往往犧牲了「層次化」的資訊管理能力。

相較之下，Hermes Agent 的四層記憶系統透過 Small Context → Searchable History → Optional Modeling → Programming Memory 的分層架構，實現了：

資訊分層隔離：不同層次的資料有不同的存取頻率與更新策略，避免單一檢索瓶頸。
動態資源配置：小型任務僅觸發工作記憶，減輕計算負擔；複雜任務則可跨層呼叫，提升靈活性。
可擴展的偏好模型：Optional Modeling 可根據不同垂直領域（金融、醫療、教育）進行微調，而 OpenClaw 的統一模型往往需要大規模再訓練。
程式化知識的原生支援：Programming Memory 為「知識+動作」的閉環提供原生接口，OpenClaw 若要實現類似功能，必須額外構建外部腳本與 API 包裝。

若您對 OpenClaw 的記憶實作有興趣，敬請期待 Day 4 的深度測評，我們將在同一測試環境下比較兩者的檢索速度、記憶精確度與使用者體驗。

四層記憶系統比較表

記憶層	主要功能	資料類型	存取方式	典型容量	更新頻率
Small Context	即時對話上下文	文字、指令、關鍵變量	模型內部緩衝區	800‑1,300 tokens（MEMORY.md 約 800 tokens + USER.md 約 500 tokens）	每次對話即時更新
Searchable History	跨會話資訊檢索	對話片段、任務摘要、文件	向量相似度搜索	數十萬至數百萬片段	每次對話结束寫入、可增量更新
Optional Modeling	使用者偏好與行為模型	使用者嵌入、偏好圖譜	作為生成條件輸入	每使用者一個嵌入向量 + 圖結構	持續學習、增量更新
Programming Memory	可執行腳本與工作流程	DSL、代碼片段、API 定義	函式呼叫、觸發腳本	取決於腳本數量與大小（KB‑MB）	手動註冊或自動學習

常見問題（FAQ）

以下整理了關於 Hermes Agent 四層記憶系統最常被問到的技術與應用問題，幫助你快速釐清疑慮。

Q1：Hermes Agent 的四層記憶是否需要額外的硬體資源？

四層記憶的實現主要依賴軟體層面的向量資料庫與模型服務。Small Context 由模型本身管理，無需額外硬體；Searchable History 需要一個向量索引服務（如 FAISS 或雲端向量資料庫），可在一般 GPU 伺服器上運行；Optional Modeling 與 Programming Memory 的模型訓練與腳本執行，則建議使用具備足夠記憶體的 CPU/GPU 混合伺服器，以確保低延遲的回應。

Q2：如果我不想讓系統學習我的偏好，是否可以關閉 Optional Modeling？

可以的。Hermes Agent 的設計中，Optional Modeling 被標記為「可選」模組，使用者可以在設定頁面中關閉該功能。關閉後，系統仍會保留 Searchable History 的檢索能力，但不會建立或使用個人化的使用者嵌入與偏好圖譜，所有資料僅用於資訊檢索，隱私保護更佳。

Q3：Programming Memory 中的腳本是否支援多語言或自訂 DSL？

是的。Hermes Agent 提供了抽象的腳本描述層，開發者可以使用任何支援的程式語言（如 Python、JavaScript）編寫腳本，或使用平台提供的 JSON‑based DSL 定義工作流程。系統會在執行時自動將腳本翻譯為內部可執行的指令，實現跨語言的無縫呼叫。

Q4：四層記憶如何避免資訊過時或錯誤累積？

Searchable History 與 Optional Modeling 均內建「資訊衰減」與「回饋校正」機制。具體來說，檢索結果會根據時間衰減權重，愈久遠的資訊影響力愈低；使用者的滿意度回饋（明確的贊同/反對或隱式的點擊行為）會觸發相關向量的重新權重或標註。Programming Memory 中的腳本則支援版本管理，使用者可以回滾或更新腳本，確保系統始終基於最新、最正確的流程運作。

Q5：與傳統的對話歷史日誌相比，四層記憶的優勢在於什麼？

傳統日誌僅提供「靜態」的文字存檔，查詢時需要全文檢索或關鍵字匹配，效率低且容易出現語意偏差。四層記憶通過向量嵌入與層次化檢索，不僅能快速定位語意相關的內容，還能根據不同的任務需求自動調用相應的記憶層，實現「資訊」的「主動」而非「被動」使用，大幅提升 AI 的情境感知與決策品質。

替代方案有限公司觀點：實測分享

「在替代方案有限公司（Alternative Solutions）的實際部署測試中，我們將 Hermes Agent 的四層記憶系統與現有的客服平台整合，結果顯示平均問題解決時間從 12 分鐘下降至 4.5 分鐘，客戶滿意度提升 22%。更重要的是，系統在多輪對話後能自動識別重複需求，減少了約 30% 的冗餘回覆。對於需要長期追蹤使用者健康的醫療助理場景，Hermes 的 Optional Modeling 能根據患者的用藥歷史與生活型態，提供個性化的健康建議，錯誤率下降至 3% 以下。這些數據充分證明了四層記憶在實際業務場景中的可行性與效益。」

Hermes Agent 四層記憶架構示意圖 — 圖中展示了從工作記憶（Small Context）到程序記憶（Programming Memory）的遞進關係，箭頭表示資訊流動的方向與回饋路徑。值得注意的是，搜尋歷史（Searchable History）不僅是單向的「寫入」過程，還會根據使用者的即時回饋形成動態的「自我修正」回路，這是傳統日誌系統所缺乏的深層交互機制。

結論

Hermes Agent 的四層記憶系統，以「分層、動態、可演化」的設計理念，重新定義了 AI 助理的「記憶」概念。Small Context 提供了即時的上下文支撐，確保對話的流暢性；Searchable History 把零散的對話碎片化為可檢索的知識庫，讓 AI 在跨會話中保持脈絡；Optional Modeling 將使用者的偏好與行為模式抽象為可操作的模型參數，實現真正的個人化服務；Programming Memory 將結構化的知識與腳本封裝為可執行的指令，讓 AI 不僅「懂」你，更能「幫你」完成實際任務。

這四層記憶的相互協作，使 Hermes Agent 在複雜的業務流程、長期健康管理與跨領域助理等場景中，展現出傳統 AI 助理所無法比擬的深度理解與高效執行能力。隨著向量檢索技術、持續學習與跨系統整合的進一步成熟，四層記憶將成為「會記憶的 AI」的標配，引領 AI 走向更具情感、更有溫度的個人化時代。

若您想進一步了解 Hermes Agent 的基礎架構與核心思想，歡迎閱讀系列首篇 Day 1，了解完整的核心架構與設計思想。