500 份導演手冊!Agent Skills 的設計邏輯如何讓 AI 程式助手學會拍片

目錄
共 12 個章節
2026 年 6 月 28 日,當你打開 GitHub 搜尋「video production」,會發現一個有趣的現象:最活躍的專案不再是那些剪輯軟體的外掛程式,而是一個名為 OpenMontage 的開源專案。它號稱是世界上第一個「基於代理的影片製作系統」(Agentic Video Production System),更驚人的是,它一口氣內建了 500 多份「導演技法」,也就是所謂的 Agent Skills。
這些 Skills 不是普通的程式碼函式庫,而是一份份用 Markdown 寫成的「導演手冊」。它們的設計邏輯,徹底解決了過去生成式 AI 最讓人頭痛的問題:AI 懂得寫腳本,卻不懂「分鏡」;AI 會生成素材,卻永遠抓不到「品控」的尺度;AI 可以講一長串話,但講到後面就忘記前面的規則,就像一隻患有嚴重「金魚腦」的實習生。
現在,隨著 Google 開源的 agents-cli、以及 Remotion 等工具整合了這些技能包,AI 程式助手(如 Claude Code、Gemini CLI、Codex)終於學會了「按照規矩拍片」。這篇文章將帶你深入拆解這 500 份導演手冊的設計邏輯,看看它們如何讓 AI 從一個「亂槍打鳥」的創作者,進化成一位稱職的「場控官」。
一、從「提示工程」到「導演手冊」:技術架構的質變
在以往,我們教 AI 做事的方式叫做「提示工程」(Prompt Engineering)。這就像你站在片場大喊:「幫我拍一部關於貓的電影!」結果 AI 可能會生出一段不知所云的畫面,因為它缺乏對「電影製作流程」這個複雜任務的理解。
根據近期一份技術分析指出,提示工程就像是一份模糊的分鏡腳本,它雖然能引導 AI 的「思維鏈」(Chain of Thought, CoT),教導大腦如何將一段複雜的戲拆解成小步驟,並在演不好時進行「自我反思與修正」。但問題在於,這個思維鏈是臨時拼湊的,每次對話都得重頭來過。
Agent Skills 的出現,徹底改變了這個格局。
簡單說,一份 Agent Skill 就是一張「可重複使用的 AI 作業手冊」。它規範了 AI 在特定任務裡的判斷流程、資料處理方式與輸出格式。這份手冊不再是抽象的提示詞,而是結構化的程式碼與規則庫。
在 OpenMontage 的案例中,這 500 多個 Skills 被劃分進 12 條專業流水線 與 52 個工具。每一條流水線都有對應的「導演」,負責接收人類核心指令,自主拆解任務、做出決策並調度資源。
我們用一個非常直觀的比喻來理解這個技術架構:電影劇組的運作模式。
| 電影劇組角色 | 對應 AI Agent 技術 | 實際數位功能(做些什麼?) |
|---|---|---|
| 總導演 (Director) | AI Agent 核心 | 接收人類核心指令,自主拆解任務、做出決策並調度資源。 |
| 分鏡腳本師 | Chain of Thought + 反思機制 | 將複雜戲拆解成小步驟,並在輸出前進行自我校驗。 |
| 資源調度官 | 動態組裝系統(指令/記憶/RAG/工具) | 根據當前對話,即時調取文件、歷史對話、指令說明及外部工具。 |
| 場控 (Technical Director) | Agent Skill 執行器 | 告知 AI 當前的場控參數在哪,並負責 Orchestrate 整個執行流程。 |

這個架構的關鍵在於「動態組裝」。傳統的 AI 聊天機器人只能處理一段上下文,但有了 Agent Skills 的支持,AI 就能根據當前的對話狀態,即時把相關的 Markdown 文件、過去的歷史對話、曾收到的指令說明,以及能用的外部工具打包進自己的「工作記憶」中。這徹底告別了生成式 AI 那種「顧頭不顧尾」、講到後面就忘記前面規則的「金魚腦」症狀。
這不是一個理論上的推測。在 OpenMontage 的系統中,當你用一句普通話描述「我想要一支 30 秒的產品宣傳片」,Agent 核心會立刻調用「腳本撰寫 Skill」、「預算評估 Skill」、「素材規範 Skill」以及「品控檢查 Skill」等多份導演手冊,然後才開始真正動工。
二、500 份導演手冊的設計邏輯:拆解 OpenMontage 的秘密
那麼,這 500 份 Agent Skills 到底長什麼樣子?它們又是如何一步一步引導 AI 編程助手學會拍片的?
我們可以從 OpenMontage 的 GitHub 頁面上窺見一二。這些 Skills 並非都是程式碼,更多的是結構化的 Markdown 文件。每一份文件就像是一個獨立的「教戰守則」,詳細說明了特定任務的「遊戲規則」。
一份典型的「導演手冊」通常包含以下幾個核心區塊:
- 任務定義: 明確描述這個 Skill 負責解決什麼問題。例如「腳本長度不得超過 150 字」、「背景音樂風格必須為 Lo-fi 且音量 < -15dB」。
- 輸入規範: 定義 AI 需要接收哪些參數。例如「用戶敘述」、「目標受眾」、「平台(YouTube / TikTok)」。
- 執行步驟: 以條列式或思維鏈的形式,寫明 AI 應該如何處理資料。這不僅是告訴 AI 「做什麼」,更是教它「怎麼做」。
- 輸出格式: 明確規範最終結果的結構。例如「輸出 JSON 格式,包含 ‘video_duration’、’scene_list’、’audio_asset’ 等欄位」。
- 品控標準: 定義什麼是「通過」、什麼是「失敗」。AI 在執行完任務後,必須先進行「自我審查」,確保輸出符合規範,才能交到用戶手上。
舉例來說,假設有一個名為「分鏡腳本規範 v2.3」的 Skill,它的內容可能會這樣寫:
任務: 將一段長篇文字腳本轉換為 5 個鏡頭的分鏡描述。
規則: 每個鏡頭需包含 ‘Camera_Angle’, ‘Duration’, ‘Dialogue’, ‘Action’。
校驗: 所有鏡頭的 ‘Duration’ 總和必須等於 ‘total_duration’,誤差不得超過 0.5 秒。如果超過,請重新計算並調整鏡頭長度。
特殊指示: 如果用戶提到「快節奏」,則每個鏡頭的 Duration 不得超過 3 秒。
這就是文件驅動的 Agent。有了這些明確的「手冊」,AI 程式助手不再是盲猜。它知道導演(也就是那個寫 Skill 的人)想要的是什麼,並且有了一套標準作業程序(SOP)來執行。
而這 500 多份 Skills 背後,代表的是一套完整的「製作知識庫」。從前期調研、劇本撰寫、素材生成、剪輯邏輯、到後期調色與音樂混音,每一個環節都被拆解成可被 AI 調用的原子化技能。
更重要的是,這些 Skills 是可以累積、迭代的。今天發現了某個指令會導致產出影片出現「跳幀」,團隊只需要修改對應的 Markdown 文件,明天所有的 AI Agent 就都會學到這個教訓,從此不再犯同樣的錯誤。
三、Remotion × AI Agent:用程式碼「編譯」影片的實踐
如果說 OpenMontage 代表了開源社群對於「AI 導演」的終極想像,那麼 Remotion 則是將這個想像落地到極致效率的實戰工具。
Remotion 的核心理念非常性感——「Make videos programmatically」(用程式編寫影片)。它讓你用寫 React 的方式來「編譯」出一支 MP4 影片。以前你需要用滑鼠在時間軸上拉來拉去,還要對齊到崩潰;現在透過 API,你可以精準控制像素的運動。
但這對一般創作者來說門檻太高了。誰會為了剪一支 30 秒的短片,跑去學 React 和 TypeScript?
這正是 Agent Skills 發揮作用的地方。根據最新的實戰教學指出,Remotion 最近推出的 Agent Skills 功能,讓 Claude、Google Gemini CLI 或 Codex 這樣的 AI 模型,能夠「讀懂」Remotion 的操作手冊。AI 不再只是瞎猜「這個影片該怎麼做」,而是拿著說明書在幫你「蓋房子」。

實際的運作流程是這樣的:你只需要在終端機中輸入一句話,例如「幫我用 Remotion 做一支 10 秒的 Logo 動畫,背景漸層色要從藍色過渡到紫色」。系統會自動幫你調用相關的 Agent Skill,這個 Skill 會告訴 AI:「先確認 Remotion 的版本,然後載入 @remotion/player 模組,設定 30fps,建立一個 1920×1080 的 Composition,然後用 React 的 animation 函式庫來實現顏色過渡」。
這一步驟的關鍵在於,AI 不會直接去生成一大堆亂七八糟的程式碼。它會先透過 Agent Skill 進行「前置規劃」,然後才開始動手。在生成過程中,如果發現程式碼報錯,Skill 中的「自我反思」機制會啟動,AI 會嘗試修正錯誤,直到完全符合規範為止。
這讓 AI 程式助手(如 Claude Code 或 Gemini CLI)的能力從「程式碼補全」進化到「專案管理」。它不再是一個單純的打字員,而是一位可以獨立作業、懂得閱讀技術文件、並能解決 Bug 的「影子工程師」。
四、深入對比:Agent Skills 與 MCP、n8n 的本質差異
隨著 Agent Skills 的爆紅,市場上也出現了許多類似的自動化工具,例如 MCP(Model Context Protocol)和 n8n 等流程自動化平台。很多人會問,它們之間有什麼差別?
簡單來說,這三者的定位完全不同:
- MCP (Model Context Protocol): 它是一套通訊協議,定義了 AI 模型如何與外部資料來源(例如資料庫、API)進行溝通。它就像是網際網路世界的 HTTP 協議,負責「連接」。
- n8n: 它是一個圖形化的工作流程自動化工具,讓你用拖曳的方式串接不同的服務(如 Slack、Email、Google Sheets)。它就像是工廠裡的「輸送帶」,把訊息從 A 點搬到 B 點。
- Agent Skills: 它的焦點在於「任務執行」與「行為規範」。它不是負責搬運資料,而是告訴 AI「這段資料該怎麼處理」、「這個任務該怎麼拆解」。它就像是工廠裡的「作業指導書」。
事實上,Google 開源的 agents-cli 正是為了將這些工程化流程打包成 AI 可以調用的技能包。它提供了一個標準化的方式,讓開發者可以將自己的「導演手冊」上傳並分享。這套系統可以無縫接入 Claude Code、Gemini CLI 或 Codex 等主流工具。
這意味著,未來的軟體開發與內容創作,將不再只是「寫程式」或「拉時間軸」。它更像是在訓練一支由 AI 驅動的「私人軍隊」。你不需要教每個士兵怎麼打仗,你只需要給他們一本「戰術手冊」,他們就會按照手冊上的指示,自主完成任務。
五、Agent Skill 的設計哲學:定義「好影片」的標準
說了這麼多技術細節,我們回歸到一個核心問題:這些 Skills 到底是如何定義「好影片」的?
在傳統的剪輯軟體中,「好」與「壞」取決於人的主觀判斷。但在 AI 製作流程中,我們必須將這種主觀感受「量化」。
根據一份來自 91APP 的行銷人入門指南,Agent Skill 補的是「流程」這一層。它不僅規範了邏輯,更規範了品質。
例如,一份名為「視覺節奏控制」的 Skill 可能會定義:
「本片為運動產品廣告。所有剪輯點必須對齊 BPM 為 120 的電子音樂節拍。鏡頭切換必須使用硬切,禁止使用轉場特效。影片前半段(0-15秒)的剪輯頻率為每 1.5 秒一個鏡頭,後半段(15-30秒)為每 0.8 秒一個鏡頭,以製造節奏加速感。」
在這個 Skill 的指導下,AI Agent 成為了一個絕對遵守紀律的剪輯師。它不會因為個人偏好而加入一個軟膠片過渡,因為規則裡說「禁止」。它不會把鏡頭長度剪成 2 秒,因為規則要求 1.5 秒。
更重要的是,在最終輸出之前,這個系統會執行一道「多點自我審查」(Multi-point self-review)。根據 OpenMontage 的設計,在燒錄最終影片之前,系統會運行一系列的驗證程序,包括「探針驗證」、「語義校驗」和「完整性檢查」。如果發現長度不符、素材解析度不對、或者音量超出規範,AI 會立刻修正,而不是把錯誤的影片丟給用戶。
這就是 Agent Skills 帶來的「品控革命」。它讓 AI 從「瞎猜亂做」變成了「按表操課」。
六、FAQ:關於 Agent Skills 的常見疑問
1. Agent Skills 跟一般的 Prompt(提示詞)有什麼不同?
一般的提示詞是一次性的,每次都要重寫。Agent Skills 是可重複使用的結構化文件,它不僅包含提示詞,還包含執行步驟、判斷邏輯、輸出格式與品控標準。Agent Skills 可以像程式碼一樣被版本控制、共享和迭代升級。
2. 我必須是程式高手才能建立 Agent Skills 嗎?
不一定。雖然許多 Skills 底層涉及程式碼,但 Skills 本身是邏輯與規則的集合。一個懂得電影製作的導演,可以將他的專業知識撰寫成結構化的 Markdown 文件,然後由工程師將其封裝成可被 AI 調用的 Skill。未來隨著工具的普及,這可能會像寫部落格一樣簡單。
3. 這些 Skills 是否只能用在 OpenMontage 或 Remotion 上?
不。由於 Google 開源了 agents-cli,以及各大主流 AI 工具(如 Claude Code、Gemini CLI、Codex)對標準化接口的支援,這些 Skills 具有跨平台的相容性。你可以將同一個 Skill 套用到不同的 AI Agent 上。
4. 如何確保 AI 不會誤讀我的 Skill 指令?
這正是設計中有「自我修正」機制的目的。當 AI 完成一個子任務後,它會根據 Skill 中的「品控標準」進行驗證。例如,如果計算出的影片總長度與腳本要求不符,AI 會跳回上一步重新計算。這大大降低了 AI 一本正經胡說八道的風險。
七、替代方案有限公司觀點:從軟體工具到知識資本

面對這股 AI Agent 與 Agent Skills 的浪潮,替代方案有限公司觀察到一個非常有趣的趨勢:未來的競爭力,將不再取決於你擁有多少數據或算力,而是取決於你擁有多少「高品質的 Agent Skills」。
在 OpenMontage 的例子中,500 份導演手冊的背後,是一整個專業製作團隊多年的實戰經驗的結晶。這些經驗被數位化、結構化,變成了 AI 可以讀懂的指令。這不僅僅是一個工具升級,更是一種「知識資本化」的過程。
對於企業來說,建立內部的 Agent Skills 庫,就如同建立了一套「超級員工培訓手冊」。新人(也就是新的 AI 模型)不需要花費數年時間摸索,只要載入這套 Skills,就能立刻複製頂尖專家的作業水準。這將極大地改變人力資源與知識管理的遊戲規則。
而對於個人創作者來說,學習如何撰寫和使用 Agent Skills,將比單純學習如何剪輯或寫程式更為重要。因為它是「給 AI 下達明確指令」的能力,是一種後設認知技能(Meta-skill)。
替代方案有限公司認為,雖然目前這些技術仍處於早期快速發展階段,但有一點很明確:我們正在從「使用工具」的時代,過渡到「培訓工具」的時代。
八、結論:揚起 AI 的「導演椅」
回顧本文,我們從一個有趣的開源專案 OpenMontage 出發,深入探討了它背後的 500 份 Agent Skills 是如何運作的。這些用 Markdown 寫成的「導演手冊」,不僅解決了 AI 的「金魚腦」問題,更為 AI 內容創作建立了一套可量化、可重複的品控標準。
透過電影劇組的比喻,我們理解了總導演、分鏡腳本師與資源調度官在數位世界中的對應角色。透過 Remotion 的實戰案例,我們看到了 AI 如何拿著說明書精準地幫我們「編譯」出影片。透過對比 MCP 與 n8n,我們釐清了 Agent Skills 在技術光譜中的獨特定位。
從現在開始,與其抱怨 AI 生成的作品品質不穩定,不如親手為你的 AI 寫一份「導演手冊」。因為未來的創造者,不是那些「拍片最厲害的人」,也不是「寫程式最厲害的人」,而是那些「最懂得如何教 AI 拍片的人」。
我們已經為你準備好了入門地圖。如果你想親眼見證這 500 份導演手冊的威力,可以參考我們對 OpenMontage 的完整拆解:





