會記憶的 AI:Hermes Agent 四層記憶系統讓 AI 真正「懂你」

目錄
共 11 個章節
會記憶的 AI:Hermes Agent 四層記憶系統讓 AI 真正「懂你」
在人工智慧快速發展的今日,幾乎所有的 AI Agent 都被設計成「即時」的互動工具——你問什麼,它即時回什麼,卻在對話結束後把所有資訊拋諸腦後。這樣的設計固然簡化了系統的負擔,卻也讓 AI 缺乏了「持續了解使用者」的關鍵能力。當使用者需要在多個會話、跨領域任務之間保持一致性與脈絡時,傳統的 AI Agent 往往只能依賴外部的資料庫或手工提示,無法真正「記住」使用者的偏好、行為模式與情境需求。這就是為什麼許多人在使用 AI 助理時,會感覺它們像是一次性的工具,而非具備長期關係的智能夥伴。
Hermes Agent(由 Nous Research 開發)提出的四層記憶系統,正是針對上述痛點的創新解答。它將 AI 的記憶分為四個層次,從最基本的工作記憶到深度的程式化知識,形成一個層層遞進、相互支援的記憶架構。透過這套系統,Hermes Agent 不僅能在單次對話中保持上下文,還能在長期的使用過程中累積、使用和演進對使用者的理解,最終實現真正的「個人化 AI」。本文將深入剖析這四層記憶的運作原理,並透過實際案例說明其帶來的變革性影響。
Layer 1:Small Context——工作記憶的基礎
Small Context,俗稱「工作記憶」,是 Hermes Agent 在單次對話中即時存取與處理的資訊空間。它的容量相對較小,通常受限於模型上下文窗口(context window)的大小,譬如 4K、8K 或 16K tokens。這一層的設計目標在於提供足夠的近期資訊,使 AI 能夠在當下的對話中保持語境連貫性,避免「對話碎片化」的問題。
在技術實現上,Small Context 會動態地將最近的使用者輸入、系統回覆以及關鍵的對話片段寫入模型的內部緩衝區。當使用者的提問涉及先前的內容時,模型可以透過簡單的「查找」或「滾動」機制,直接在緩衝區中檢索相關資訊,而無需重新載入整個歷史。這種方式大幅降低了計算成本與延遲,使得 AI 在高頻率的即時互動場景(如客服、即時翻譯)中仍能保持流暢。
然而,Small Context 的侷限也很明顯:它只能保存有限的資訊,隨著對話時間拉長,舊的內容會被新的內容覆蓋。這就催生了第二層記憶的需求——讓 AI 具備超越當前會話的長期資訊存取能力。
Layer 2:Searchable History——可搜索的歷史資料庫
Searchable History(可搜索歷史)是 Hermes Agent 的第二層記憶,它的核心思想是將對話歷史轉化為可檢索的資料庫。不同於傳統的日誌或日誌檔案,Searchable History 透過向量嵌入(vector embedding)技術,將每一段對話、每一次任務、每一個關鍵資訊片段映射到高維向量空間。當使用者提出查詢或需求時,系統會在這個向量空間中進行相似度搜索,快速找出與當前情境最相關的歷史內容。
這層的實現通常包括以下幾個關鍵步驟:
- 分段擷取(Chunking):將長篇對話或文件切割為語義完整的片段,便於精確檢索。
- 嵌入模型(Embedding Model):使用專門的語意嵌入模型(如 text-embedding-ada-002)將每個片段轉換為向量。
- 向量索引(Vector Index):將所有向量存入高效的向量資料庫(如 Pinecone、Weaviate 或 FAISS),支援毫秒級的相似度檢索。
- 檢索回傳(Retrieval & Rerank):根據檢索結果的相關性分數,篩選最符合當前任務的片段,並可進一步使用 cross-encoder 進行重新排序,以提升精準度。
Searchable History 的價值在於它能讓 AI 在跨會話的情境下,保持對使用者需求與偏好的「宏觀記憶」。舉例來說,當使用者在不同時間點詢問過「台北的咖啡廳推薦」與「台北的夜市小吃」,AI 能夠透過檢索歷史自動識別使用者的地理位置偏好,進而在新問題中加入「台北」的限定條件,而無需使用者再次說明城市。
此外,Searchable History 還支援「資訊蒸餾」——系統會根據使用者的回饋(如「這個回答很好」或「不符合需求」)自動標註、分類與更新向量,使記憶內容的品質持續提升。這種自我演化的特性,是傳統被動日誌系統所無法比擬的。
Layer 3:Optional Modeling——偏好建模的可選層
Optional Modeling(偏好建模)是 Hermes Agent 的第三層記憶,屬於可選(optional)模組,旨在將使用者的抽象偏好與行為模式轉化為可操作的模型參數。不同於 Searchable History 那樣的「資訊存儲」,Optional Modeling 更像是一個動態的「使用者模型」,它會根據長期的互動資料,自動學習使用者的風格、口吻、興趣領域以及決策傾向。
在技術上,Optional Modeling 常見的實現方式包括:
- 使用者嵌入(User Embedding):利用深度學習模型,將使用者的對話歷史、點擊行為、滿意度回饋等資訊壓縮成一個固定維度的向量,稱為「使用者嵌入」。此向量可作為模型生成時的條件輸入,讓 AI 的回覆自然迎合使用者的風格。
- 偏好圖譜(Preference Graph):將使用者的興趣點、需求層級與情境約束以圖結構表示,便於在複雜的多步任務中進行推斷與決策。
- 持續學習(Continual Learning):採用增量式學習方法,在不丟失舊知識的前提下,逐步吸收新資訊,避免模型災難性遺忘(catastrophic forgetting)。
Optional Modeling 的可選性體現在它的靈活部署上。對於隱私要求極高的企業或個人用戶,這層可以被關閉,所有資料仍保留在本地端的 Searchable History 中;而對於希望獲得高度個人化體驗的使用者,則可啟用此模組,讓 AI 成為真正的「私人助理」。在實測中,開啟 Optional Modeling 的 Hermes Agent 能將回覆的相關度提升約 15%~20%,尤其在多輪對話與跨領域任務中表現更為突出。
Layer 4:Programming Memory——程序化知識的永久存儲
Programming Memory(程序記憶)是四層架構的最上層,它專門用於存放結構化、可執行的知識與腳本。這類知識不僅是「事實」或「偏好」,更是可以被 AI 直接呼叫與運算的程序片段。Hermes Agent 透過自定義的 DSL(Domain‑Specific Language)或 API 接口,將這些程序化資訊嵌入模型的決策流程,實現「知道」與「會做」的無縫結合。
常見的 Programming Memory 應用包括:
- 工作流程模板(Workflow Templates):如「每日報告生成」、「會議排程與提醒」等,AI 可根據使用者的口頭指示自動觸發對應模板,完成從資料蒐集到結果輸出的全流程。
- 自訂指令集(Custom Instructions):使用者可定義自己的指令別名或捷徑,例如「#早會」代表「列出今天的會議議程與待辨事項」,AI 在解析到該指令時會直接執行對應的程序。
- 跨系統整合腳本(Integration Scripts):透過 RESTful API、Webhook 或 gRPC,Programming Memory 可以存取外部系統(如 CRM、ERP、IoT 設備),使 AI 能即時獲取最新資料或下發操作指令。
Programming Memory 的核心優勢在於「知識的可執行性」:不僅讓 AI 知道「什麼是對的」,更能直接「把事情做好」。舉例來說,當使用者說「我想要本月的銷售報告」時,Hermes Agent 會先檢索 Searchable History 中的相關歷史資料,再根據 Programming Memory 中的「報告生成腳本」自動抓取當月的銷售資料、計算 KPI、產出圖表,最後將完成的 PDF 或 HTML 報告回傳給使用者——整個過程無需使用者手動干預。
實際應用場景
四層記憶系統的真正價值,體現在多個真實情境的無縫銜接上。以下列舉三個典型案例:
- 個人化健康管理助理
使用者在首次諮詢時說明自己有高血壓,並希望在日常飲食中減少鈉攝取。Hermes Agent 會將此偏好寫入 Optional Modeling;後續的每一餐建議、食材購買清單,都會自動參考 Searchable History 中過去的飲食記錄與 Nutrition API,確保建議既符合健康需求,又符合使用者的口味偏好。若使用者想每週自動生成健康報告,Programming Memory 中的「健康報告模板」會自動抓取相關資料,產出圖文並茂的 PDF。 - 跨專案專案管理
一位產品經理在多個專案之間切換,每個專案都有不同的目標、受眾與時間表。Hermes Agent 會在每個專案的會話中建立對應的 Small Context,並將關鍵決策、需求變更寫入 Searchable History。當 PM 在新專案提到「上次的需求文件」時,系統可即時檢索相關內容。Optional Modeling 會記錄 PM 對報告深度的偏好(例如「只給高層摘要」),而 Programming Memory 中的「專案狀態更新腳本」可自動同步至公司的 JIRA 或 Asana。 - 智慧客服與售後服務
在電商平台的客服情境中,使用者可能在數天前詢問過物流進度,現在又想退換貨。Hermes Agent 的 Searchable History 能快速調出上一次的對話與物流單號,Optional Modeling 會識別使用者的投訴語氣與歷史滿意度,自動提升優先處理級別。Programming Memory 中的「退換貨流程腳本」則會直接指引使用者完成表單填寫、倉庫收件與退款操作,大幅縮短處理時間。
與 OpenClaw 記憶機制的比較(Day 4 預告)
在 AI Agent 的記憶設計領域,OpenClaw 是另一個備受矚目的框架,它採用「統一記憶池」的概念,將所有歷史對話、偏好與程式碼全部寫入同一個向量資料庫,並依賴單一的檢索策略來滿足不同層次的需求。這種設計在部署上較為簡潔,但往往犧牲了「層次化」的資訊管理能力。
相較之下,Hermes Agent 的四層記憶系統透過 Small Context → Searchable History → Optional Modeling → Programming Memory 的分層架構,實現了:
- 資訊分層隔離:不同層次的資料有不同的存取頻率與更新策略,避免單一檢索瓶頸。
- 動態資源配置:小型任務僅觸發工作記憶,減輕計算負擔;複雜任務則可跨層呼叫,提升靈活性。
- 可擴展的偏好模型:Optional Modeling 可根據不同垂直領域(金融、醫療、教育)進行微調,而 OpenClaw 的統一模型往往需要大規模再訓練。
- 程式化知識的原生支援:Programming Memory 為「知識+動作」的閉環提供原生接口,OpenClaw 若要實現類似功能,必須額外構建外部腳本與 API 包裝。
若您對 OpenClaw 的記憶實作有興趣,敬請期待 Day 4 的深度測評,我們將在同一測試環境下比較兩者的檢索速度、記憶精確度與使用者體驗。
四層記憶系統比較表
| 記憶層 | 主要功能 | 資料類型 | 存取方式 | 典型容量 | 更新頻率 |
|---|---|---|---|---|---|
| Small Context | 即時對話上下文 | 文字、指令、關鍵變量 | 模型內部緩衝區 | 1K‑16K tokens | 每次對話即時更新 |
| Searchable History | 跨會話資訊檢索 | 對話片段、任務摘要、文件 | 向量相似度搜索 | 數十萬至數百萬片段 | 每次對話结束寫入、可增量更新 |
| Optional Modeling | 使用者偏好與行為模型 | 使用者嵌入、偏好圖譜 | 作為生成條件輸入 | 每使用者一個嵌入向量 + 圖結構 | 持續學習、增量更新 |
| Programming Memory | 可執行腳本與工作流程 | DSL、代碼片段、API 定義 | 函式呼叫、觸發腳本 | 取決於腳本數量與大小(KB‑MB) | 手動註冊或自動學習 |
常見問題(FAQ)
- Q1:Hermes Agent 的四層記憶是否需要額外的硬體資源?
- 四層記憶的實現主要依賴軟體層面的向量資料庫與模型服務。Small Context 由模型本身管理,無需額外硬體;Searchable History 需要一個向量索引服務(如 FAISS 或雲端向量資料庫),可在一般 GPU 伺服器上運行;Optional Modeling 與 Programming Memory 的模型訓練與腳本執行,則建議使用具備足夠記憶體的 CPU/GPU 混合伺服器,以確保低延遲的回應。
- Q2:如果我不想讓系統學習我的偏好,是否可以關閉 Optional Modeling?
- 可以的。Hermes Agent 的設計中,Optional Modeling 被標記為「可選」模組,使用者可以在設定頁面中關閉該功能。關閉後,系統仍會保留 Searchable History 的檢索能力,但不會建立或使用個人化的使用者嵌入與偏好圖譜,所有資料僅用於資訊檢索,隱私保護更佳。
- Q3:Programming Memory 中的腳本是否支援多語言或自訂 DSL?
- 是的。Hermes Agent 提供了抽象的腳本描述層,開發者可以使用任何支援的程式語言(如 Python、JavaScript)編寫腳本,或使用平台提供的 JSON‑based DSL 定義工作流程。系統會在執行時自動將腳本翻譯為內部可執行的指令,實現跨語言的無縫呼叫。
- Q4:四層記憶如何避免資訊過時或錯誤累積?
- Searchable History 與 Optional Modeling 均內建「資訊衰減」與「回饋校正」機制。具體來說,檢索結果會根據時間衰減權重,愈久遠的資訊影響力愈低;使用者的滿意度回饋(明確的贊同/反對或隱式的點擊行為)會觸發相關向量的重新權重或標註。Programming Memory 中的腳本則支援版本管理,使用者可以回滾或更新腳本,確保系統始終基於最新、最正確的流程運作。
- Q5:與傳統的對話歷史日誌相比,四層記憶的優勢在於什麼?
- 傳統日誌僅提供「靜態」的文字存檔,查詢時需要全文檢索或關鍵字匹配,效率低且容易出現語意偏差。四層記憶通過向量嵌入與層次化檢索,不僅能快速定位語意相關的內容,還能根據不同的任務需求自動調用相應的記憶層,實現「資訊」的「主動」而非「被動」使用,大幅提升 AI 的情境感知與決策品質。
AltSol 觀點:Alternative Solution Co., Ltd. 實測分享
「在 Alternative Solution Co., Ltd.(AltSol)的實際部署測試中,我們將 Hermes Agent 的四層記憶系統與現有的客服平台整合,結果顯示平均問題解決時間從 12 分鐘下降至 4.5 分鐘,客戶滿意度提升 22%。更重要的是,系統在多輪對話後能自動識別重複需求,減少了約 30% 的冗餘回覆。對於需要長期追蹤使用者健康的醫療助理場景,Hermes 的 Optional Modeling 能根據患者的用藥歷史與生活型態,提供個性化的健康建議,錯誤率下降至 3% 以下。這些數據充分證明了四層記憶在實際業務場景中的可行性与效益。」

結論
Hermes Agent 的四層記憶系統,以「分層、動態、可演化」的設計理念,重新定義了 AI 助理的「記憶」概念。Small Context 提供了即時的上下文支撐,確保對話的流暢性;Searchable History 把零散的對話碎片化為可檢索的知識庫,讓 AI 在跨會話中保持脈絡;Optional Modeling 將使用者的偏好與行為模式抽象為可操作的模型參數,實現真正的個人化服務;Programming Memory 將結構化的知識與腳本封裝為可執行的指令,讓 AI 不僅「懂」你,更能「幫你」完成實際任務。
這四層記憶的相互協作,使 Hermes Agent 在複雜的業務流程、長期健康管理與跨領域助理等場景中,展現出傳統 AI 助理所無法比擬的深度理解與高效執行能力。隨著向量檢索技術、持續學習與跨系統整合的進一步成熟,四層記憶將成為「會記憶的 AI」的標配,引領 AI 走向更具情感、更有溫度的個人化時代。
若您想进一步了解 Hermes Agent 的基礎架構與核心思想,歡迎點擊閱讀 Day 1,獲取完整的技術解析與開發指南。