ScreenKiteScreenKite|指南
    • 安裝 ScreenKite
    • 系統需求
    • 設定權限
    • 建立新錄製
    • 錄製整個顯示器
    • 錄製視窗
    • 錄製區域
    • 視訊鏡頭與麥克風
    • 系統音訊
    • 錄製 iOS 裝置
    • 鍵盤快捷鍵
    • 分享截圖
    • 自動縮放
    • 設定縮放選項
    • 專案編輯器概覽
    • 時間軸與軌道
    • 裁切與分割
    • 外觀自訂
    • 裝置外框
    • Agentic Video Editing
    • 詞級產生字幕
    • 預覽品質
    • AI 聊天助手
    • 編輯器設定
    • 匯出設定
    • 匯出到 Final Cut Pro (FCPXML)
    • 常見問題
    • 權限與存取
    ← ScreenKite 首頁
    指南/編輯

    Agentic Video Editing

    在 ScreenKite 中開啟 .skbundle 錄製檔案,然後向 AI Agent(Claude Code、Codex、Gemini CLI 或任何支援 ScreenKite MCP 工具的 Agent)發送指令。Agent 負責兩件事:剪切轉錄文字和產生帶場景版面的 B-Roll。你負責審閱和確認,它負責執行。

    社群工作流程、提示詞和技能包:github.com/ScreenKite/awesome-ai-video-editing


    預檢:本地模型就緒狀態

    在 Agent 使用 WhisperKit 進行轉錄之前,模型檔案必須已存在於磁碟上。Agent CLI 在啟動時會進行此檢查——如果所選模型路徑不存在或已失效,你會看到:

    WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
    

    解決方法:

    1. 開啟 Settings(設定)→ Transcription(轉錄)。
    2. 選擇 Word-Level(詞級) 子標籤。
    3. 將 Provider(提供商)設定為 Local(本地)(或 Automatic(自動),優先使用 ElevenLabs,並將 WhisperKit 作為備選)。
    4. 在 WhisperKit model(WhisperKit 模型) 部分,從選單中選擇一個模型,然後點擊 Download Selected Model(下載所選模型)。
    5. 等待進度條完成;標籤會變為 Model downloaded(模型已下載)。
    6. 重新執行 Agent 指令——就緒檢查將會通過。
    ✅

    Agent 指令中的相對路徑會自動相對於 Shell 的目前工作目錄進行解析,然後再轉送給應用程式。如果你已在正確的資料夾中,可以傳遞 ./Recording.skbundle 或僅使用檔案名稱。


    向 Agent 發送指令

    你不需要寫程式,只需寫一句話。Agent 會代你呼叫 ScreenKite 的 CLI 和 MCP 工具。

    💡

    更喜歡在編輯器內完成所有操作?內建的 AI Chat(AI 聊天) 面板可以存取與外部 Agent 相同的 MCP 工具——無需終端機。詳情請參閱 AI Chat Assistant(AI 聊天助手)。

    Claude Code

    # 在專案資料夾中啟動互動式會話
    claude
    
    # 然後輸入:
    Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
    
    # 或從終端機一次性執行
    claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
    

    Codex CLI

    codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
    
    # 一次性完成 B-Roll
    codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
    

    Gemini CLI

    gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
    

    Agent 實際呼叫的內容

    在底層,每個會話都從以下內容開始:

    # 開啟專案
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
      --path ~/Desktop/Recording.skbundle --json
    
    # 讀取專案狀態
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
      --name getProjectState --input-json '{"scope":"summary"}' --json
    

    你可以隨時自行執行這些指令來檢查狀態。每次呼叫時加上 --json 可使輸出便於機器讀取。


    技能包(Skills)

    技能包是預先建立的提示詞集合,可以教會 Agent 完整的工作流程,這樣你就不必每次從頭描述。安裝一次,在任何會話中按名稱引用即可。

    安裝

    npx skills add ScreenKite/awesome-ai-video-editing
    

    可用技能

    use-screenkite-advanced-b-roll — 完整流水線:使用 ElevenLabs 轉錄、打包為短語視圖、校對專有名詞、提供帶密度選項的視覺選單、並行產生 Hyperframes 合成內容、渲染為 MP4,並使用 magicMove 過渡套用 setSceneLayout DSL。

    claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
    

    video-use — 以轉錄文字為核心的編輯:轉錄、打包、規劃剪輯、確認、執行。在 ScreenKite 之外工作時,還可以透過 FFmpeg 處理調色、字幕和動畫疊加。

    claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
    

    在 Claude Code 中呼叫技能

    如果你已互動式開啟 Claude Code,可以將技能名稱作為斜線指令輸入:

    /use-screenkite-advanced-b-roll
    

    技能載入後會提示你輸入錄製檔案路徑。


    第一部分——基於轉錄文字的剪輯

    Agent 的工作流程

    1. 使用 ElevenLabs Scribe 轉錄麥克風音軌——詞級時間戳,並快取結果,不會重複上傳相同檔案
    2. 將原始 JSON 打包為可讀的短語視圖(短語在靜音 ≥ 0.5s 處斷開)
    3. 透過網路搜尋校對每個產品名或專有名詞——ASR 經常會誤聽名稱(例如將 "ScreenKite" 轉錄為 "Screencast");錯誤的名稱會傳播到所有下游字幕和視覺素材中
    4. 提出剪輯清單,包含精確的時間範圍和每次剪輯的通俗說明
    5. 在接觸時間軸之前等待你的確認

    相同的詞級時間戳還能驅動字幕產生。當 Agent 在 ScreenKite 中建立字幕時,它使用已設定的 Word-Level(詞級) 轉錄提供商,並為每個口語單詞匯入一個字幕提示,而非長句子塊。請參閱 Word-Level Generated Captions(詞級產生字幕) 了解應用程式端的設定。

    ⚠️

    透過 CLI 進行的時間軸剪輯無法復原。Agent 始終會顯示完整的剪輯清單並等待你確認。請仔細審查——尤其是首尾邊界。

    範例提示詞

    Open ~/Desktop/Recording.skbundle and transcribe + cut.
    Show me the cut plan first, don't touch the timeline yet.
    ElevenLabs key is in ~/.config/env/elevenlabs.env
    

    Agent 會回傳類似以下內容:

    [000.06–000.66]  "HelloPro."          → false start
    [002.14–002.56]  "Hello."             → second false start
    --- CUT [0 → 2.98s] ---
    [011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
    [043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]
    
    Result: 58.8s → 51.2s
    Apply these 3 cuts?
    

    回覆 yes,所有剪輯將透過 editTimeline(action: "cut", {ranges: [...]}) 一次性套用。

    會被剪掉的內容

    • 假開始 — 真正第一句話之前的所有內容(測試麥克風、重複的問候語)
    • 填充詞 — 兩側有足夠靜音的孤立「呃」、「嗯」、「那個」
    • 過渡短語 — 「好,讓我看看」、「那麼」、「總之」等節拍之間的填充語

    Agent 絕不會從單詞中間剪切,每個剪輯邊緣會距離詞語邊界填充 100–150ms,並優先選擇 ≥ 400ms 的靜音處作為剪輯目標。


    第二部分——自動 B-Roll 產生

    剪輯完成後,Agent 將轉錄文字映射到節拍點,並使用 Hyperframes(HTML + GSAP → MP4)為每個節拍點產生動畫視覺素材。每個視覺素材以帶有 magicMove 過渡的場景版面形式放置在 ScreenKite 中。

    版面樣式

    Corner PiP(角落子母畫面) — 螢幕錄製填滿畫布,B-Roll 作為角落點綴出現(寬度 40–42%)。適合以螢幕內容為主要敘事的教程。

    Centered B-roll(置中 B-Roll) — 螢幕錄製縮小至左上角(約 38%),B-Roll 置中播放(約 56% 寬度)。適合以視覺效果為主的產品介紹。

    # 角落子母畫面(預設)
    claude "add B-roll with corner layout"
    
    # 置中
    claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
    

    Agent 的工作流程

    1. 節拍映射 — 將剪輯後的轉錄短語映射到節拍:產品名稱、核心功能、工作流程、行動號召
    2. 密度選擇 — 提議稀疏(4)、中等(7)或密集(10);顯示插槽選單;等待你選擇
    3. 並行產生 — 同時分發每個插槽的子 Agent;每個 Agent 產生完整的 1920×1080 Hyperframes 合成內容
    4. 串行渲染 — 按順序將每個插槽渲染為 MP4(並行 Chrome 實例會導致影格損壞)
    5. DSL 套用 — 使用你選擇的版面為每個時間視窗呼叫 setSceneLayout

    視覺素材規範

    每個產生的視覺素材遵循以下規則:

    • 全影格內容 — 1920×1080 的 MP4 即為子母畫面影格;內容填滿邊緣(將小卡片放在大片空白影片中會讓它「角上角」地被埋沒)
    • 入場 → 停留 → 無內部退出 — 視覺素材動態進場(0–1.5s),穩定為可讀的停留狀態,然後停止。magicMove 處理退出。內部淡出會產生破損的雙重退出效果。
    • 大號排版 — 展示文字 160–220px,正文 48–72px;在 40–56% 寬度下,這樣的字號在螢幕上仍清晰可讀

    密度方案

    方案插槽數間距風格
    稀疏4約 13s 間隔簡潔、紀錄片感
    中等7約 7s 間隔均衡(預設)
    密集10約 5s 間隔解說型節奏感

    範例提示詞

    Recording is cut. Add B-roll:
    - Centered layout (screen top-left, B-roll center)
    - Medium density
    - Cute, warm visuals
    - All text in English
    

    對單一插槽進行迭代

    Slot 3 should show a Swift logo instead of the Apple emoji.
    Re-render slot 3 and re-apply.
    

    Agent 只會重新產生該插槽並重新套用其 DSL 視窗,其他所有內容保持不變。

    ⚠️

    在之前較長的版面視窗上重新套用較短的版面視窗時,殘留的「尾部」片段可能會持續播放。Agent 會自動清除這些內容。如果你手動套用 setSceneLayout 後發現 B-Roll 播放時間過長,可在尾部範圍上以 mode: "pictureInPicture" 呼叫 setSceneLayout 來清除它。


    整合在一起

    # 1. 在專案資料夾中啟動 Claude Code
    claude
    
    # 2. 轉錄剪輯
    "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
    # → 審閱剪輯清單 → "yes"
    
    # 3. B-Roll
    "Add B-roll — centered layout, medium density, cute English visuals"
    # → 審閱 7 插槽節拍選單 → "Medium, looks good"
    # → Agent 並行產生,串行渲染,套用 DSL(約 3 分鐘)
    
    # 4. 抽查
    "Show me slot 4 at 18s"
    # → 在 ScreenKite 中拖動查看
    
    # 5. 如需調整
    "Slot 4 — change the node diagram to use mint green for all nodes"
    

    實際操作時間:不到 5 分鐘。渲染時間:7 個插槽約 2–3 分鐘。

    更多工作流程、範例提示詞和社群技能包:github.com/ScreenKite/awesome-ai-video-editing

    上一篇

    ← 裝置外框

    下一篇

    詞級產生字幕→