ScreenKiteで .skbundle 録画を開き、AIエージェント(Claude Code、Codex、Gemini CLI、またはScreenKiteのMCPツールを持つ任意のエージェント)に指示を出します。エージェントは2つのことを担当します:トランスクリプトのカットとシーンレイアウトを使ったB-Rollの生成。あなたは確認して承認し、エージェントが実行します。
コミュニティワークフロー、プロンプト、スキルパック:github.com/ScreenKite/awesome-ai-video-editing
プリフライト:ローカルモデルの準備状態
エージェントがWhisperKitを使ってトランスクリプトを作成するには、モデルファイルがディスク上に存在する必要があります。エージェントCLIは起動時にこれを確認します — 選択したモデルのパスが見つからないか古い場合、次のメッセージが表示されます:
WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
解決方法:
- **Settings(設定)→ Transcription(トランスクリプト)**を開きます。
- **Word-Level(ワードレベル)**サブタブを選択します。
- プロバイダーを**Local(ローカル)に設定します(WhisperKitをフォールバックとしてElevenLabsを優先するにはAutomatic(自動)**を選択)。
- **WhisperKit model(WhisperKitモデル)**セクションで、メニューからモデルを選び、**Download Selected Model(選択したモデルをダウンロード)**をクリックします。
- プログレスバーが完了するまで待ちます。ラベルが**Model downloaded(モデルダウンロード済み)**に変わります。
- エージェントコマンドを再実行します — 準備確認が通過します。
エージェントへの指示
コードを書く必要はありません。一文を書くだけです。エージェントがあなたの代わりにScreenKiteのCLIとMCPツールを呼び出します。
Claude Code
# プロジェクトフォルダーでインタラクティブセッションを開始 claude # 次に入力: Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
# またはターミナルから1回で実行 claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
Codex CLI
codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
# B-Rollを1回で codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
Gemini CLI
gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
エージェントが実際に呼び出すもの
内部では、すべてのセッションは次のコマンドで始まります:
# プロジェクトを開く
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
--path ~/Desktop/Recording.skbundle --json
# プロジェクト状態を読む
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
--name getProjectState --input-json '{"scope":"summary"}' --json
これらのコマンドはいつでも自分で実行して状態を確認できます。各呼び出しに --json を付けると出力が機械可読になります。
スキル
スキルは事前構築されたプロンプトバンドルで、エージェントに完全なワークフローを教えるため、ゼロから説明する必要がありません。一度インストールして、どのセッションでも名前で参照できます。
インストール
npx skills add ScreenKite/awesome-ai-video-editing
利用可能なスキル
use-screenkite-advanced-b-roll — 完全なパイプライン:ElevenLabsでトランスクリプト作成、フレーズビューにパック、固有名詞の校正、密度バンドル付きビジュアルメニューの提案、Hyperframesコンポジションの並列生成、MP4へのレンダリング、magicMoveトランジション付きsetSceneLayout DSLの適用。
claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
video-use — トランスクリプト中心の編集:トランスクリプト作成、パック、カット計画、確認、実行。ScreenKite外での作業時にはFFmpegを使用したカラーグレード、字幕、アニメーションオーバーレイも処理します。
claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
Claude Codeでスキルを呼び出す
Claude Codeをインタラクティブに開いている場合は、スキル名をスラッシュコマンドとして入力します:
/use-screenkite-advanced-b-roll
スキルが指示を読み込み、録画パスを入力するよう促します。
パート1 — トランスクリプトベースのカット
エージェントの動作
- ElevenLabs Scriberでマイクトラックをトランスクリプト作成 — ワードレベルのタイムスタンプ、キャッシュされるため同じファイルを再アップロードしません
- 生のJSONを読みやすいフレーズビューにパック(フレーズは無音 ≥ 0.5sで区切られます)
- ウェブ検索ですべての製品名や固有名詞を校正 — ASRは名前をよく聞き間違えます(例:"ScreenKite"が"Screencast"と転写される);間違った名前はすべての下流の字幕やビジュアルに広がります
- 正確な時間範囲と各カットの平易な理由を含むカットリストを提案
- タイムラインに触れる前に承認を待ちます
同じワードタイムスタンプが生成字幕を駆動します。エージェントがScreenKiteで字幕を作成する場合、設定された**Word-Level(ワードレベル)**トランスクリプションプロバイダーを使用し、長い文ブロックではなく話された単語ごとに1つの字幕キューをインポートします。アプリ側の設定についてはWord-Level Generated Captions(ワードレベル生成字幕)をご覧ください。
サンプルプロンプト
Open ~/Desktop/Recording.skbundle and transcribe + cut. Show me the cut plan first, don't touch the timeline yet. ElevenLabs key is in ~/.config/env/elevenlabs.env
エージェントは次のようなものを返します:
[000.06–000.66] "HelloPro." → false start [002.14–002.56] "Hello." → second false start --- CUT [0 → 2.98s] --- [011.84–012.18] "Uh," → filler CUT [8.72–10.00] [043.60–045.16] "And let's see." → transition CUT [40.48–42.60] Result: 58.8s → 51.2s Apply these 3 cuts?
yes と返答すると、すべてのカットがeditTimeline(action: "cut", {ranges: [...]})の1回の呼び出しで適用されます。
カットされるもの
- フォールスタート — 本当の最初の文の前のすべて(マイクテスト、繰り返しの挨拶)
- フィラーワード — 両側に十分な無音がある孤立した「えー」「あの」「まあ」
- トランジションフレーズ — ビートの間を埋める「じゃあ見てみましょう」「えーと」「ともかく」
エージェントは単語の途中でカットしません。各カット端を単語境界から100–150msパディングし、≥ 400msの無音をカットターゲットとして優先します。
パート2 — 自動B-Roll生成
カット後、エージェントはトランスクリプトをビートにマッピングし、Hyperframes(HTML + GSAP → MP4)を使用して各ビートのアニメーションビジュアルを生成します。各ビジュアルはmagicMoveトランジション付きのシーンレイアウトとしてScreenKiteに配置されます。
レイアウトスタイル
Corner PiP — スクリーン録画がキャンバスを埋め、B-Rollがコーナーアクセントとして表示されます(幅40–42%)。スクリーンコンテンツが主要なストーリーであるチュートリアルに最適です。
Centered B-roll — スクリーン録画が左上に縮小(約38%)、B-Rollが中央で再生(幅約56%)。ビジュアルを際立たせたいプロダクトイントロに最適です。
# Corner PiP(デフォルト) claude "add B-roll with corner layout" # 中央配置 claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
エージェントの動作
- ビートマッピング — カットされたトランスクリプトのフレーズをビートにマッピング:製品名、主要機能、ワークフロー、CTA
- 密度の選択 — Sparse(4)、Medium(7)、Dense(10)を提案;スロットメニューを表示;選択を待つ
- 並列生成 — 各スロットのサブエージェントを同時に配備;各エージェントが完全な1920×1080 Hyperframesコンポジションを作成
- 直列レンダリング — 各スロットをMP4に順番にレンダリング(並列Chromeはフレームを破損させます)
- DSL適用 — 選択したレイアウトで各タイムウィンドウに
setSceneLayoutを呼び出す
ビジュアルコントラクト
生成された各ビジュアルはこれらのルールに従います:
- フルフレームコンテンツ — 1920×1080のMP4がPiPフレーム;コンテンツはエッジいっぱいに広がります(ほぼ空のフレーム内に小さなカードを配置すると、コーナーのコーナーに埋もれます)
- エントリー → ホールド → 内部退出なし — ビジュアルはアニメーションで入場(0–1.5s)し、読みやすいホールドに落ち着き、停止します。
magicMoveが退出を処理します。内部フェードアウトは壊れたダブル退出を生成します。 - 大きなタイポグラフィ — ディスプレイテキスト160–220px、本文48–72px;幅40–56%でも画面上で読みやすいサイズです
密度バンドル
| バンドル | スロット数 | 間隔 | 雰囲気 |
|---|---|---|---|
| Sparse | 4 | 約13s間隔 | クリーン、ドキュメンタリー |
| Medium | 7 | 約7s間隔 | バランス(デフォルト) |
| Dense | 10 | 約5s間隔 | 解説エネルギー |
サンプルプロンプト
Recording is cut. Add B-roll: - Centered layout (screen top-left, B-roll center) - Medium density - Cute, warm visuals - All text in English
1つのスロットを反復する
Slot 3 should show a Swift logo instead of the Apple emoji. Re-render slot 3 and re-apply.
エージェントはそのスロットのみを再生成し、DSLウィンドウを再適用します。他はそのまま維持されます。
すべてをまとめる
# 1. プロジェクトフォルダーでClaude Codeを起動 claude # 2. トランスクリプトカット "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env" # → カットリストを確認 → "yes" # 3. B-Roll "Add B-roll — centered layout, medium density, cute English visuals" # → 7スロットビートメニューを確認 → "Medium, looks good" # → エージェントが並列生成、直列レンダリング、DSL適用(約3分) # 4. スポットチェック "Show me slot 4 at 18s" # → ScreenKiteでスクラブ # 5. 必要に応じて調整 "Slot 4 — change the node diagram to use mint green for all nodes"
実際の作業時間:5分未満。レンダリング時間:7スロットで約2–3分。
より多くのワークフロー、サンプルプロンプト、コミュニティスキル:github.com/ScreenKite/awesome-ai-video-editing