DeepTutor 完整解析:香港大學開源的 AI 家教改變教育訓練

目錄
共 23 個章節
DeepTutor 是什麼?不只是聊天機器人的 AI 家教革命
2025 年 12 月底,一個來自香港大學數據智能實驗室(HKUDS)的開源專案悄悄上線。不到四個月,它已經在 GitHub 上累積超過 20,000 顆星,成為 AI 教育工具史上成長速度最快的開源項目之一。這個專案叫做 DeepTutor。
但 DeepTutor 究竟是什麼?它和你每天用的 ChatGPT 或 Claude 有什麼本質上的不同?對於台灣的企業主管、教育訓練負責人、或是對 AI 工具有強烈需求的知識工作者而言,它又能帶來什麼改變?
本文是「DeepTutor 7 天完整指南」的第一篇,我們將從最基礎的問題切入:DeepTutor 是什麼、為什麼它的成長速度令業界震驚、它的核心功能有哪些、以及它和競品相比的真正優勢所在。如果你是第一次聽到這個工具,讀完本文你將能夠清楚判斷它是否適合你的需求,並決定是否值得花一個小時安裝體驗。
「從零到 10,000 顆 GitHub Stars 只花了 39 天,DeepTutor 是史上成長最快的 AI 教育工具之一。這背後代表的不只是行銷成功,而是它確實填補了市場上一個長期存在的空白:真正能記住學習者、隨學習者成長的個人化 AI 導師。」

DeepTutor 的驚人成長:數字背後的意義
在談功能之前,先讓我們正視幾個數字,因為這些數字本身就說明了問題。
| 項目 | 數據 |
|---|---|
| GitHub Stars | 20,000+(2026-04-19,111 天達成) |
| 零到 10K Stars | 僅花 39 天 |
| 開發團隊 | 香港大學數據智能實驗室(HKUDS) |
| 最新版本 | v1.2.5(2026-04-25) |
| 首次發布 | 2025-12-29 |
| v1.0 發布 | 2026-04-03(Agent 原生架構重寫) |
| 授權方式 | Apache 2.0(開源免費,可商用) |
| 技術棧 | Python 3.11+ / Next.js 16 / FastAPI |
| 支援 LLM | 30+ 家 provider |
對照一下:ByteDance 的 DeerFlow 2.0 在 GitHub Trending 衝上第一名時,被各大媒體廣泛報導。如果你對開源 AI 工具的成長速度有概念,可以參考我們先前的文章:ByteDance 開源猛攻:GitHub Trending 第一名的 DeerFlow 2.0 到底是什麼?。但即使是 DeerFlow 2.0 的成長速度,也難以媲美 DeepTutor 從零到 10K Stars 僅花 39 天的驚人紀錄。
這個速度告訴我們一件事:市場對「真正個人化的 AI 學習工具」的需求,遠比多數人預想的更迫切。人們不缺聊天機器人,人們缺的是一個能記住他們、理解他們學習方式、並根據他們的弱點調整教學內容的 AI 導師。

DeepTutor 和一般 AI 聊天機器人的根本差異
要真正理解 DeepTutor,必須先破除一個迷思:它不是另一個「套上教育外皮的 ChatGPT」。
大多數 AI 學習工具的邏輯很簡單:你問問題,它給答案,下次對話從零開始。每次互動都是孤立的。它不記得你上次學到哪裡,不知道你的弱點在哪個概念,更不會主動調整解釋方式來符合你的學習風格。
DeepTutor 的設計哲學截然不同。它採用的是「Agent 原生(Agent-Native)」架構,核心概念是:每個學習者都擁有一個專屬的 TutorBot,這個 TutorBot 具備持久記憶、獨特個性、以及可以隨時擴充的技能組合。它不是一個工具,而是一個會成長的 AI 導師。
v1.0 版本在 2026 年 4 月 3 日發布時,整個系統進行了約 20 萬行代碼的大規模重寫,從根本上改變了架構邏輯。這次重寫的核心是讓 DeepTutor 成為一個真正的多代理人協作系統,而不是一個加了幾個插件的聊天機器人。
對於這種「會記憶的 AI」概念,台灣讀者可以參考我們之前深度分析的文章:Hermes Agent 是什麼?Nous Research 如何用「會記憶的 AI」改變遊戲規則?。Hermes Agent 與 DeepTutor 在「持久記憶」這個設計理念上有深度的共鳴,雖然應用場景不同,但底層哲學是一致的:AI 工具應該越用越懂你,而不是每次都從頭開始。
六種學習模式在同一執行緒無縫切換
DeepTutor 的統一聊天工作區支援六種完全不同的工作模式,而且這六種模式可以在同一個對話執行緒中自由切換,不需要開新視窗或切換工具:
- Chat 模式:工具增強的流暢對話,可混用 RAG 知識庫檢索、網路即時搜尋、代碼執行、深度推理等能力
- Deep Solve 模式:多代理人問題解決流程,依序完成「計劃 → 推理 → 解答 → 驗證」四個步驟,每步附精確來源引用
- Quiz Generation 模式:基於你上傳的知識庫自動生成測驗題,內建驗證機制確保題目品質
- Deep Research 模式:將主題分解為子主題,派遣多個研究代理人並行調查,最終產出完整引用報告
- Math Animator 模式:用 Manim 數學動畫引擎將數學概念轉為視覺動畫,讓抽象概念一眼看懂
- Visualize 模式:用 Chart.js、Mermaid、SVG 或 HTML 生成互動式圖表,資料視覺化一步到位
這種設計的意義在於:學習過程本來就不是線性的。你可能在閱讀一段文字時需要提問(Chat),接著遇到一道難題需要拆解(Deep Solve),然後想確認自己理解了多少(Quiz),最後決定做一份完整研究報告(Deep Research)。DeepTutor 讓你不需要切換工具就能完成這整個流程。
TutorBot:你的專屬 AI 導師
TutorBot 是 DeepTutor 最核心、也最具差異化的功能。每個 TutorBot 擁有獨立的工作區、記憶系統、個性設定與技能組合,並基於 HKUDS 自行開發的 nanobot 框架建構。
TutorBot 的「持久記憶」機制會持續勾勒學習者畫像:你學過什麼、你喜歡用什麼方式理解概念、你的目標是什麼。每次使用都讓 TutorBot 對你的了解加深一層,這意味著它對你的教學方式會隨著時間持續優化。
這與一般 AI 工具的最大差異,正是持久記憶的有無。如果你想深入了解 AI 記憶系統的技術原理,可以閱讀:會記憶的 AI:Hermes Agent 四層記憶系統讓 AI 真正「懂你」。雖然文章以 Hermes Agent 為例,但其中對 AI 持久記憶架構的分析同樣適用於理解 DeepTutor 的 TutorBot 設計邏輯。
七大核心功能完整解析
除了六種聊天模式和 TutorBot,DeepTutor 還有五個同樣重要的核心功能模組。理解這些模組,才能看清 DeepTutor 作為一個完整學習生態系統的全貌。
知識中心(Knowledge Hub)
知識中心是 DeepTutor 的「大腦倉庫」。你可以上傳 PDF、Markdown、純文字等格式的文件,建立屬於你自己的 RAG(檢索增強生成)知識庫。DeepTutor 支援 Docling(IBM 開源的文件解析工具)來處理複雜版面的文件,包括圖文混排、表格密集的企業報告等。
知識中心還支援色碼筆記本和題庫銀行,讓你的學習資料有條理地組織起來,而不是散落在對話紀錄裡找不到。
AI Co-Writer(協作寫作)
Co-Writer 是一個多文件 Markdown 工作區,AI 作為第一類協作者參與其中。它支援「改寫、擴展、縮短」三種核心操作,並可從知識庫或網路抓取上下文。所有產出都能儲存回筆記本,形成完整的學習生態閉環。
對於企業培訓場景,Co-Writer 最直接的價值是協助員工將學到的知識轉化為書面產出,而不只是停留在「我看過了」的階段。
Book Engine(「活的書」編譯器)
Book Engine 可以說是 DeepTutor 最令人眼前一亮的功能之一。它能將你的教材、文件、知識庫轉化為互動式結構化書籍,整個編譯過程由多代理人 pipeline 完成:設計大綱 → 檢索來源 → 合成章節 → 規劃頁面 → 編譯區塊。
Book Engine 支援 14 種區塊類型,包括:文字、提示框(Callout)、測驗、閃卡(Flashcard)、程式碼、圖表、動畫、時間線、概念圖等。每本「活的書」都是可互動的,讀者可以直接在書中提問、測驗、甚至和 AI 導師討論內容。
持久記憶(Persistent Memory)
前面在 TutorBot 部分已經提過持久記憶的概念,但它的實際作用範圍遠超過單一 TutorBot。DeepTutor 的持久記憶系統橫跨所有功能模組,意味著你在 Chat 模式裡表現出的學習偏好、在 Deep Solve 裡暴露的概念弱點、在 Quiz 裡答錯的題目類型,都會被記憶系統整合,讓整個平台對你的了解越來越精準。
Agent-Native CLI
對於進階用戶和企業 IT 部門,DeepTutor 提供了一個完整的命令列介面(CLI),每項功能、知識庫、工作區都是一個獨立指令。CLI 為人類提供豐富的終端輸出,同時為 AI 代理人提供結構化 JSON 輸出,讓 DeepTutor 可以被整合進更大的 AI 自動化工作流中。

DeepTutor 與競品的全面比較
目前市場上最常被拿來和 DeepTutor 比較的工具,包括 Khan Academy 推出的 Khanmigo、ChatGPT 的 Study 功能、以及 Duolingo Max。以下是功能面的完整比較:
| 功能 | DeepTutor | Khanmigo | ChatGPT Study | Duolingo Max |
|---|---|---|---|---|
| Agent 原生架構 | ✅ 是 | ❌ 否 | ❌ 否 | ❌ 否 |
| 多代理人協作 | ✅ 是 | ❌ 否 | ❌ 否 | ❌ 否 |
| TutorBot 持久記憶 | ✅ 完整 | ❌ 否 | 部分(記憶功能) | ❌ 否 |
| 試題自動生成 | ✅ 是 | ✅ 是 | ❌ 否 | ✅ 是 |
| 數學動畫生成 | ✅ 是 | ❌ 否 | ❌ 否 | ❌ 否 |
| 書籍編譯器 | ✅ 是 | ❌ 否 | ❌ 否 | ❌ 否 |
| 本地部署(隱私保護) | ✅ 是 | ❌ 否 | ❌ 否 | ❌ 否 |
| 開源免費 | ✅ Apache 2.0 | 付費訂閱 | 付費訂閱 | 付費訂閱 |
| 企業培訓適用性 | ✅ 企業全場景 | 主要 K12 教育 | 通用個人使用 | 語言學習 |
| 支援自訂文件上傳 | ✅ PDF/MD/TXT | ❌ 否 | ✅ 部分 | ❌ 否 |
從比較表格可以看出,DeepTutor 在幾乎所有維度都取得了領先地位,特別是在「本地部署」和「開源免費」這兩個對企業決策者最關鍵的面向上,它是唯一提供完整支援的選項。
「Khanmigo 和 ChatGPT Study 都是優秀的工具,但它們的設計假設是:你願意把學習資料上傳到他們的雲端,並且願意每月付費。對於有資料主權需求的台灣企業而言,這是一個根本性的限制。DeepTutor 讓企業可以在自己的伺服器上部署一套完整的 AI 導師系統,資料完全不出公司網域。」
企業應用場景:DeepTutor 能為台灣企業做什麼
理解了 DeepTutor 的功能之後,最實際的問題是:它能在哪些企業場景中產生價值?以下是四個最直接、最有說服力的應用方向。
新進員工培訓
傳統的新進員工培訓往往面臨三個問題:教材是死的(PDF 或 PPT 讀完就忘)、進度難以追蹤(靠人工記錄既費時又不準)、每位新人的學習速度不同但得接受同樣的課程安排。
DeepTutor 的解法是:將公司規章制度、工作流程文件、產品知識等上傳到知識中心,建立一個專屬的企業知識 RAG 庫。新人透過 TutorBot 學習,AI 導師會記住每位員工學到哪裡、在哪個概念上卡關,並針對個別弱點生成補強測驗。整個過程不需要培訓主管全程陪同,AI 導師 24 小時隨時待命。
客戶教育與產品訓練
對於軟體公司或金融機構等需要大規模客戶教育的企業,可以用 Book Engine 將產品手冊轉為互動式「活的書」,讓客戶透過問答式學習掌握產品功能,而不是硬讀厚重的說明文件。
這種場景同樣可以結合 Deep Research 功能,讓客戶在學習產品的同時,也能即時取得競品比較分析,強化對本公司產品優勢的認識。
技能認證準備
PMP、AWS 認證、金融証照等技能認證的備考往往耗費大量時間。DeepTutor 的 Quiz Generation 功能可以根據認證範圍建立題庫銀行,AI 生成個人化練習卷,模擬真實考試環境,並根據每次練習的結果追蹤理解度缺口,優先針對弱項加強。
內部知識庫建構
許多企業的痛點不是缺少知識,而是知識散落在各處——技術文件在某個共享資料夾、會議紀錄在另一個雲端硬碟、流程規範又在內部 Wiki。DeepTutor 的知識中心可以整合這些分散的資料,透過 RAG 檢索確保每個答案都有明確的文件來源,並用 Co-Writer 功能讓團隊成員協作維護知識庫的更新。
技術架構快速解析:為什麼它比一般工具強大
對技術細節有興趣的讀者,以下是 DeepTutor 技術架構的核心概念。
DeepTutor 採用雙層插件模型:
- Level 1 — Tools(工具層):RAG 檢索、網路搜尋、代碼執行、推理、腦力激盪、論文搜尋、GeoGebra 分析
- Level 2 — Capabilities(能力層):Chat、Deep Solve、Deep Question、Deep Research、Math Animator、Visualize
這種分層設計讓上層功能(Capabilities)能夠靈活調用底層工具(Tools),形成高度可組合的能力矩陣。每個學習任務,系統都會自動判斷需要調用哪些工具組合來達成最佳效果。
在 LLM 支援方面,DeepTutor 目前相容超過 30 家 provider,包括 OpenAI、Anthropic、DeepSeek、Gemini、MiniMax、Moonshot、Ollama、LM Studio、vLLM、Groq、Azure OpenAI 等。這意味著台灣企業可以根據成本考量選擇最適合的模型:預算有限時用 DeepSeek 或 MiniMax,對品質有更高要求時切換到 GPT-4o 或 Claude,而不需要被任何單一廠商綁定。
安裝部署:四種方式適合不同需求
DeepTutor 的部署靈活性是它對企業友善的另一個關鍵原因。目前支援四種部署方式:
1. Setup Tour(最推薦):一行指令 python scripts/start_tour.py,互動式引導完成 7 個步驟,從環境設定到第一次對話,大約需要 30 到 60 分鐘,適合個人用戶或想快速評估的企業。
2. 手動安裝:透過 pip install 安裝套件,手動設定 .env 配置檔,適合有 Python 開發經驗、需要更細緻控制的技術用戶。
3. Docker 部署:官方提供 GHCR 容器映像,支援 amd64 和 arm64 架構,適合企業 IT 部門在標準化環境中部署。
4. 純 CLI 模式:不需要 Node.js,只用 Python 環境即可運行,適合伺服器資源有限或只需要 CLI 整合的場景。
值得特別說明的是,DeepTutor 可以完全離線運行在個人電腦或 NAS 設備上(已有台灣用戶在極空間 Z425 NAS 上成功部署的案例)。選擇本地 Ollama 或 LM Studio 作為 LLM 後端時,所有資料完全不離開公司網域,資料主權完全由企業自己掌控。這對有資安合規需求的金融、醫療、政府等產業而言,是一個決定性的優勢。
優點與限制:誠實的評估
我們不做單方面的宣傳。以下是對 DeepTutor 優缺點的誠實評估:
主要優點
- 開源免費,Apache 2.0 授權:可商用,無訂閱費用,企業不需要為每位員工的使用付出固定月費
- 完全本地部署:敏感商業文件不需要上雲,資料主權自持,符合台灣資安法規趨勢
- Agent 原生設計:不是聊天機器人加插件,而是從底層設計為多代理人協作系統
- 持久記憶機制:每次使用都讓 AI 更懂學習者,形成正向學習飛輪
- 高度可擴展性:Skills 外掛系統讓企業可以自訂教學邏輯,不受限於預設功能
- 多語言支援:官方 README 自帶中文、英文、日文、西班牙文等 10 種以上語言版本
- 極為活躍的開發節奏:v1.0 發布後 20 天內已推出 12 個以上新版本,幾乎每天都有更新
需要注意的限制
- 仍需要 API Key:LLM 和 Embedding 都需要第三方 API,即使是最便宜的 DeepSeek 或 MiniMax 也有費用。若使用本地模型(Ollama)則可完全免費,但對硬體要求較高。
- 技術門檻中等偏高:需要具備 Python 環境管理和 API Key 串接的基本知識,非技術背景的人員需要支援。
- 複雜 PDF 版面處理仍有挑戰:圖文混排、多欄設計的 PDF 轉換品質可能不穩定。
- 數學動畫需額外環境:Math Animator 功能依賴 Manim,而 Manim 需要 LaTeX 環境和 ffmpeg,設定步驟較繁瑣。
- 尚未內建企業 SSO:如果公司需要統一登入整合,目前需要自行開發或等待官方功能更新。
- 目前只有 Web 介面:沒有專屬的行動應用程式,在手機上的使用體驗不如原生 App 順暢。
替代方案有限公司的觀點:DeepTutor 值得台灣企業認真評估
從替代方案有限公司的角度來看,DeepTutor 代表的是一個重要的趨勢轉捩點:開源 AI 工具的品質和完整性,已經達到可以和商業付費工具正面競爭的水準,而且在資料主權和部署彈性這兩個維度上,開源工具有著商業 SaaS 產品難以超越的結構性優勢。
對台灣中大型企業而言,DeepTutor 的評估重點應該放在三個面向:第一,現有的教育訓練痛點是否吻合它的強項(個人化學習軌跡、知識庫 RAG、自動出題);第二,IT 部門是否有能力支援 Python + Docker 環境的維運;第三,LLM API 成本在現有培訓預算結構中的位置是否合理。如果三個問題的答案都是肯定的,那麼花一個小時安裝體驗是非常值得的投資。
對中小企業和新創公司而言,DeepTutor 的開源免費屬性更是一個難以拒絕的誘因。在 AI 學習工具市場中,能做到「功能完整、完全開源、可本地部署、支援 30 家以上 LLM 廠商」這四點同時成立的選項,目前幾乎只有 DeepTutor 一個。
我們替代方案有限公司接下來六天將繼續深入解析 DeepTutor 的各個面向:第 2 天我們會拆解 Agent 原生架構和 TutorBot 持久記憶的技術原理;第 3 天帶你走過企業內訓的完整實作流程。如果你現在就想動手嘗試,下一步就是跟著官方的 Setup Tour 指令完成安裝——整個過程大約需要一個小時,而這一個小時很可能是你今年在 AI 工具上最有價值的時間投資之一。
本文為「DeepTutor 7 天完整指南」系列第 1 篇,共 7 篇。
相關文章

DeerFlow 2.0 的商業棋局:ByteDance 如何用開源框架引流火山引擎?
背景介紹:從開源框架到雲端巨頭的流量收割機 在 2026 年初的全球科技版圖中,字節跳動(ByteDance)

開源 Agent 框架終極橫評:DeerFlow 2.0 vs OpenHands vs CrewAI vs OpenClaw
2026 年開源 Agent 框架戰國時代:從「對話」走向「執行」的轉捩點 進入 2026 年,人工智慧的發展

DeerFlow 2.0 實戰安裝指南:最低成本部署,30 分鐘產出第一份 AI 研究報告
DeerFlow 2.0 實戰安裝指南:最低成本部署,30 分鐘產出第一份 AI 研究報告 在 2026 年的

DeerFlow 2.0 的數據安全真相:MIT 開源背後,ByteDance 如何處理資料流向?
DeerFlow 2.0 的數據安全真相:MIT 開源背後,ByteDance 如何處理資料流向? 在 202

DeerFlow 2.0 架構全拆解:9 層中介層、Lead Agent 設計與 Subagent 委派機制
DeerFlow 2.0 架構全拆解:9 層中介層、Lead Agent 設計與 Subagent 委派機制

ByteDance 開源猛攻:GitHub Trending 第一名的 DeerFlow 2.0 到底是什麼?
ByteDance 開源猛攻:GitHub Trending 第一名的 DeerFlow 2.0 到底是什麼?