在 ScreenKite 中開啟 .skbundle 錄製檔案,然後向 AI Agent(Claude Code、Codex、Gemini CLI 或任何支援 ScreenKite MCP 工具的 Agent)發送指令。Agent 負責兩件事:剪切轉錄文字和產生帶場景版面的 B-Roll。你負責審閱和確認,它負責執行。
社群工作流程、提示詞和技能包:github.com/ScreenKite/awesome-ai-video-editing
預檢:本地模型就緒狀態
在 Agent 使用 WhisperKit 進行轉錄之前,模型檔案必須已存在於磁碟上。Agent CLI 在啟動時會進行此檢查——如果所選模型路徑不存在或已失效,你會看到:
WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
解決方法:
- 開啟 Settings(設定)→ Transcription(轉錄)。
- 選擇 Word-Level(詞級) 子標籤。
- 將 Provider(提供商)設定為 Local(本地)(或 Automatic(自動),優先使用 ElevenLabs,並將 WhisperKit 作為備選)。
- 在 WhisperKit model(WhisperKit 模型) 部分,從選單中選擇一個模型,然後點擊 Download Selected Model(下載所選模型)。
- 等待進度條完成;標籤會變為 Model downloaded(模型已下載)。
- 重新執行 Agent 指令——就緒檢查將會通過。
向 Agent 發送指令
你不需要寫程式,只需寫一句話。Agent 會代你呼叫 ScreenKite 的 CLI 和 MCP 工具。
Claude Code
# 在專案資料夾中啟動互動式會話 claude # 然後輸入: Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
# 或從終端機一次性執行 claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
Codex CLI
codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
# 一次性完成 B-Roll codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
Gemini CLI
gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
Agent 實際呼叫的內容
在底層,每個會話都從以下內容開始:
# 開啟專案
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
--path ~/Desktop/Recording.skbundle --json
# 讀取專案狀態
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
--name getProjectState --input-json '{"scope":"summary"}' --json
你可以隨時自行執行這些指令來檢查狀態。每次呼叫時加上 --json 可使輸出便於機器讀取。
技能包(Skills)
技能包是預先建立的提示詞集合,可以教會 Agent 完整的工作流程,這樣你就不必每次從頭描述。安裝一次,在任何會話中按名稱引用即可。
安裝
npx skills add ScreenKite/awesome-ai-video-editing
可用技能
use-screenkite-advanced-b-roll — 完整流水線:使用 ElevenLabs 轉錄、打包為短語視圖、校對專有名詞、提供帶密度選項的視覺選單、並行產生 Hyperframes 合成內容、渲染為 MP4,並使用 magicMove 過渡套用 setSceneLayout DSL。
claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
video-use — 以轉錄文字為核心的編輯:轉錄、打包、規劃剪輯、確認、執行。在 ScreenKite 之外工作時,還可以透過 FFmpeg 處理調色、字幕和動畫疊加。
claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
在 Claude Code 中呼叫技能
如果你已互動式開啟 Claude Code,可以將技能名稱作為斜線指令輸入:
/use-screenkite-advanced-b-roll
技能載入後會提示你輸入錄製檔案路徑。
第一部分——基於轉錄文字的剪輯
Agent 的工作流程
- 使用 ElevenLabs Scribe 轉錄麥克風音軌——詞級時間戳,並快取結果,不會重複上傳相同檔案
- 將原始 JSON 打包為可讀的短語視圖(短語在靜音 ≥ 0.5s 處斷開)
- 透過網路搜尋校對每個產品名或專有名詞——ASR 經常會誤聽名稱(例如將 "ScreenKite" 轉錄為 "Screencast");錯誤的名稱會傳播到所有下游字幕和視覺素材中
- 提出剪輯清單,包含精確的時間範圍和每次剪輯的通俗說明
- 在接觸時間軸之前等待你的確認
相同的詞級時間戳還能驅動字幕產生。當 Agent 在 ScreenKite 中建立字幕時,它使用已設定的 Word-Level(詞級) 轉錄提供商,並為每個口語單詞匯入一個字幕提示,而非長句子塊。請參閱 Word-Level Generated Captions(詞級產生字幕) 了解應用程式端的設定。
範例提示詞
Open ~/Desktop/Recording.skbundle and transcribe + cut. Show me the cut plan first, don't touch the timeline yet. ElevenLabs key is in ~/.config/env/elevenlabs.env
Agent 會回傳類似以下內容:
[000.06–000.66] "HelloPro." → false start [002.14–002.56] "Hello." → second false start --- CUT [0 → 2.98s] --- [011.84–012.18] "Uh," → filler CUT [8.72–10.00] [043.60–045.16] "And let's see." → transition CUT [40.48–42.60] Result: 58.8s → 51.2s Apply these 3 cuts?
回覆 yes,所有剪輯將透過 editTimeline(action: "cut", {ranges: [...]}) 一次性套用。
會被剪掉的內容
- 假開始 — 真正第一句話之前的所有內容(測試麥克風、重複的問候語)
- 填充詞 — 兩側有足夠靜音的孤立「呃」、「嗯」、「那個」
- 過渡短語 — 「好,讓我看看」、「那麼」、「總之」等節拍之間的填充語
Agent 絕不會從單詞中間剪切,每個剪輯邊緣會距離詞語邊界填充 100–150ms,並優先選擇 ≥ 400ms 的靜音處作為剪輯目標。
第二部分——自動 B-Roll 產生
剪輯完成後,Agent 將轉錄文字映射到節拍點,並使用 Hyperframes(HTML + GSAP → MP4)為每個節拍點產生動畫視覺素材。每個視覺素材以帶有 magicMove 過渡的場景版面形式放置在 ScreenKite 中。
版面樣式
Corner PiP(角落子母畫面) — 螢幕錄製填滿畫布,B-Roll 作為角落點綴出現(寬度 40–42%)。適合以螢幕內容為主要敘事的教程。
Centered B-roll(置中 B-Roll) — 螢幕錄製縮小至左上角(約 38%),B-Roll 置中播放(約 56% 寬度)。適合以視覺效果為主的產品介紹。
# 角落子母畫面(預設) claude "add B-roll with corner layout" # 置中 claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
Agent 的工作流程
- 節拍映射 — 將剪輯後的轉錄短語映射到節拍:產品名稱、核心功能、工作流程、行動號召
- 密度選擇 — 提議稀疏(4)、中等(7)或密集(10);顯示插槽選單;等待你選擇
- 並行產生 — 同時分發每個插槽的子 Agent;每個 Agent 產生完整的 1920×1080 Hyperframes 合成內容
- 串行渲染 — 按順序將每個插槽渲染為 MP4(並行 Chrome 實例會導致影格損壞)
- DSL 套用 — 使用你選擇的版面為每個時間視窗呼叫
setSceneLayout
視覺素材規範
每個產生的視覺素材遵循以下規則:
- 全影格內容 — 1920×1080 的 MP4 即為子母畫面影格;內容填滿邊緣(將小卡片放在大片空白影片中會讓它「角上角」地被埋沒)
- 入場 → 停留 → 無內部退出 — 視覺素材動態進場(0–1.5s),穩定為可讀的停留狀態,然後停止。
magicMove處理退出。內部淡出會產生破損的雙重退出效果。 - 大號排版 — 展示文字 160–220px,正文 48–72px;在 40–56% 寬度下,這樣的字號在螢幕上仍清晰可讀
密度方案
| 方案 | 插槽數 | 間距 | 風格 |
|---|---|---|---|
| 稀疏 | 4 | 約 13s 間隔 | 簡潔、紀錄片感 |
| 中等 | 7 | 約 7s 間隔 | 均衡(預設) |
| 密集 | 10 | 約 5s 間隔 | 解說型節奏感 |
範例提示詞
Recording is cut. Add B-roll: - Centered layout (screen top-left, B-roll center) - Medium density - Cute, warm visuals - All text in English
對單一插槽進行迭代
Slot 3 should show a Swift logo instead of the Apple emoji. Re-render slot 3 and re-apply.
Agent 只會重新產生該插槽並重新套用其 DSL 視窗,其他所有內容保持不變。
整合在一起
# 1. 在專案資料夾中啟動 Claude Code claude # 2. 轉錄剪輯 "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env" # → 審閱剪輯清單 → "yes" # 3. B-Roll "Add B-roll — centered layout, medium density, cute English visuals" # → 審閱 7 插槽節拍選單 → "Medium, looks good" # → Agent 並行產生,串行渲染,套用 DSL(約 3 分鐘) # 4. 抽查 "Show me slot 4 at 18s" # → 在 ScreenKite 中拖動查看 # 5. 如需調整 "Slot 4 — change the node diagram to use mint green for all nodes"
實際操作時間:不到 5 分鐘。渲染時間:7 個插槽約 2–3 分鐘。
更多工作流程、範例提示詞和社群技能包:github.com/ScreenKite/awesome-ai-video-editing