ScreenKiteScreenKite|ガイド
    • ScreenKiteのインストール
    • システム要件
    • 権限の設定
    • 新規録画
    • 画面全体の録画
    • ウィンドウの録画
    • 選択エリアの録画
    • ウェブカメラとマイク
    • システムオーディオ
    • iOSデバイスの録画
    • キーボードショートカット
    • スクリーンショットの共有
    • オートズーム
    • ズーム設定の構成
    • プロジェクトエディターの概要
    • タイムラインとトラック
    • トリミングと分割
    • 外観のカスタマイズ
    • デバイスフレーム
    • Agentic Video Editing
    • ワードレベルの自動字幕生成
    • プレビュー品質
    • AIチャットアシスタント
    • エディター設定
    • エクスポート設定
    • Final Cut Proへの書き出し(FCPXML)
    • 一般的な問題と解決策
    • システム権限とアクセス
    ← ScreenKite ホームページ
    ガイド/編集

    Agentic Video Editing

    ScreenKiteで .skbundle 録画を開き、AIエージェント(Claude Code、Codex、Gemini CLI、またはScreenKiteのMCPツールを持つ任意のエージェント)に指示を出します。エージェントは2つのことを担当します:トランスクリプトのカットとシーンレイアウトを使ったB-Rollの生成。あなたは確認して承認し、エージェントが実行します。

    コミュニティワークフロー、プロンプト、スキルパック:github.com/ScreenKite/awesome-ai-video-editing


    プリフライト:ローカルモデルの準備状態

    エージェントがWhisperKitを使ってトランスクリプトを作成するには、モデルファイルがディスク上に存在する必要があります。エージェントCLIは起動時にこれを確認します — 選択したモデルのパスが見つからないか古い場合、次のメッセージが表示されます:

    WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
    

    解決方法:

    1. **Settings(設定)→ Transcription(トランスクリプト)**を開きます。
    2. **Word-Level(ワードレベル)**サブタブを選択します。
    3. プロバイダーを**Local(ローカル)に設定します(WhisperKitをフォールバックとしてElevenLabsを優先するにはAutomatic(自動)**を選択)。
    4. **WhisperKit model(WhisperKitモデル)**セクションで、メニューからモデルを選び、**Download Selected Model(選択したモデルをダウンロード)**をクリックします。
    5. プログレスバーが完了するまで待ちます。ラベルが**Model downloaded(モデルダウンロード済み)**に変わります。
    6. エージェントコマンドを再実行します — 準備確認が通過します。
    ✅

    エージェントコマンドの相対パスは、アプリに転送される前にシェルの現在の作業ディレクトリを基準に自動的に解決されます。正しいフォルダにいれば ./Recording.skbundle やファイル名だけを渡すことができます。


    エージェントへの指示

    コードを書く必要はありません。一文を書くだけです。エージェントがあなたの代わりにScreenKiteのCLIとMCPツールを呼び出します。

    💡

    エディター内ですべて完結させたいですか?組み込みの**AI Chat(AIチャット)**パネルは外部エージェントと同じMCPツールにアクセスできます — ターミナル不要。設定と使い方はAI Chat Assistant(AIチャットアシスタント)をご覧ください。

    Claude Code

    # プロジェクトフォルダーでインタラクティブセッションを開始
    claude
    
    # 次に入力:
    Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
    
    # またはターミナルから1回で実行
    claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
    

    Codex CLI

    codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
    
    # B-Rollを1回で
    codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
    

    Gemini CLI

    gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
    

    エージェントが実際に呼び出すもの

    内部では、すべてのセッションは次のコマンドで始まります:

    # プロジェクトを開く
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
      --path ~/Desktop/Recording.skbundle --json
    
    # プロジェクト状態を読む
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
      --name getProjectState --input-json '{"scope":"summary"}' --json
    

    これらのコマンドはいつでも自分で実行して状態を確認できます。各呼び出しに --json を付けると出力が機械可読になります。


    スキル

    スキルは事前構築されたプロンプトバンドルで、エージェントに完全なワークフローを教えるため、ゼロから説明する必要がありません。一度インストールして、どのセッションでも名前で参照できます。

    インストール

    npx skills add ScreenKite/awesome-ai-video-editing
    

    利用可能なスキル

    use-screenkite-advanced-b-roll — 完全なパイプライン:ElevenLabsでトランスクリプト作成、フレーズビューにパック、固有名詞の校正、密度バンドル付きビジュアルメニューの提案、Hyperframesコンポジションの並列生成、MP4へのレンダリング、magicMoveトランジション付きsetSceneLayout DSLの適用。

    claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
    

    video-use — トランスクリプト中心の編集:トランスクリプト作成、パック、カット計画、確認、実行。ScreenKite外での作業時にはFFmpegを使用したカラーグレード、字幕、アニメーションオーバーレイも処理します。

    claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
    

    Claude Codeでスキルを呼び出す

    Claude Codeをインタラクティブに開いている場合は、スキル名をスラッシュコマンドとして入力します:

    /use-screenkite-advanced-b-roll
    

    スキルが指示を読み込み、録画パスを入力するよう促します。


    パート1 — トランスクリプトベースのカット

    エージェントの動作

    1. ElevenLabs Scriberでマイクトラックをトランスクリプト作成 — ワードレベルのタイムスタンプ、キャッシュされるため同じファイルを再アップロードしません
    2. 生のJSONを読みやすいフレーズビューにパック(フレーズは無音 ≥ 0.5sで区切られます)
    3. ウェブ検索ですべての製品名や固有名詞を校正 — ASRは名前をよく聞き間違えます(例:"ScreenKite"が"Screencast"と転写される);間違った名前はすべての下流の字幕やビジュアルに広がります
    4. 正確な時間範囲と各カットの平易な理由を含むカットリストを提案
    5. タイムラインに触れる前に承認を待ちます

    同じワードタイムスタンプが生成字幕を駆動します。エージェントがScreenKiteで字幕を作成する場合、設定された**Word-Level(ワードレベル)**トランスクリプションプロバイダーを使用し、長い文ブロックではなく話された単語ごとに1つの字幕キューをインポートします。アプリ側の設定についてはWord-Level Generated Captions(ワードレベル生成字幕)をご覧ください。

    ⚠️

    タイムラインのカットはCLIで元に戻せません。エージェントは常に完全なカットリストを表示して確認を待ちます。特に最初と最後の境界を確認してください。

    サンプルプロンプト

    Open ~/Desktop/Recording.skbundle and transcribe + cut.
    Show me the cut plan first, don't touch the timeline yet.
    ElevenLabs key is in ~/.config/env/elevenlabs.env
    

    エージェントは次のようなものを返します:

    [000.06–000.66]  "HelloPro."          → false start
    [002.14–002.56]  "Hello."             → second false start
    --- CUT [0 → 2.98s] ---
    [011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
    [043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]
    
    Result: 58.8s → 51.2s
    Apply these 3 cuts?
    

    yes と返答すると、すべてのカットがeditTimeline(action: "cut", {ranges: [...]})の1回の呼び出しで適用されます。

    カットされるもの

    • フォールスタート — 本当の最初の文の前のすべて(マイクテスト、繰り返しの挨拶)
    • フィラーワード — 両側に十分な無音がある孤立した「えー」「あの」「まあ」
    • トランジションフレーズ — ビートの間を埋める「じゃあ見てみましょう」「えーと」「ともかく」

    エージェントは単語の途中でカットしません。各カット端を単語境界から100–150msパディングし、≥ 400msの無音をカットターゲットとして優先します。


    パート2 — 自動B-Roll生成

    カット後、エージェントはトランスクリプトをビートにマッピングし、Hyperframes(HTML + GSAP → MP4)を使用して各ビートのアニメーションビジュアルを生成します。各ビジュアルはmagicMoveトランジション付きのシーンレイアウトとしてScreenKiteに配置されます。

    レイアウトスタイル

    Corner PiP — スクリーン録画がキャンバスを埋め、B-Rollがコーナーアクセントとして表示されます(幅40–42%)。スクリーンコンテンツが主要なストーリーであるチュートリアルに最適です。

    Centered B-roll — スクリーン録画が左上に縮小(約38%)、B-Rollが中央で再生(幅約56%)。ビジュアルを際立たせたいプロダクトイントロに最適です。

    # Corner PiP(デフォルト)
    claude "add B-roll with corner layout"
    
    # 中央配置
    claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
    

    エージェントの動作

    1. ビートマッピング — カットされたトランスクリプトのフレーズをビートにマッピング:製品名、主要機能、ワークフロー、CTA
    2. 密度の選択 — Sparse(4)、Medium(7)、Dense(10)を提案;スロットメニューを表示;選択を待つ
    3. 並列生成 — 各スロットのサブエージェントを同時に配備;各エージェントが完全な1920×1080 Hyperframesコンポジションを作成
    4. 直列レンダリング — 各スロットをMP4に順番にレンダリング(並列Chromeはフレームを破損させます)
    5. DSL適用 — 選択したレイアウトで各タイムウィンドウにsetSceneLayoutを呼び出す

    ビジュアルコントラクト

    生成された各ビジュアルはこれらのルールに従います:

    • フルフレームコンテンツ — 1920×1080のMP4がPiPフレーム;コンテンツはエッジいっぱいに広がります(ほぼ空のフレーム内に小さなカードを配置すると、コーナーのコーナーに埋もれます)
    • エントリー → ホールド → 内部退出なし — ビジュアルはアニメーションで入場(0–1.5s)し、読みやすいホールドに落ち着き、停止します。magicMoveが退出を処理します。内部フェードアウトは壊れたダブル退出を生成します。
    • 大きなタイポグラフィ — ディスプレイテキスト160–220px、本文48–72px;幅40–56%でも画面上で読みやすいサイズです

    密度バンドル

    バンドルスロット数間隔雰囲気
    Sparse4約13s間隔クリーン、ドキュメンタリー
    Medium7約7s間隔バランス(デフォルト)
    Dense10約5s間隔解説エネルギー

    サンプルプロンプト

    Recording is cut. Add B-roll:
    - Centered layout (screen top-left, B-roll center)
    - Medium density
    - Cute, warm visuals
    - All text in English
    

    1つのスロットを反復する

    Slot 3 should show a Swift logo instead of the Apple emoji.
    Re-render slot 3 and re-apply.
    

    エージェントはそのスロットのみを再生成し、DSLウィンドウを再適用します。他はそのまま維持されます。

    ⚠️

    以前のより長いレイアウトウィンドウに短いウィンドウを再適用する場合、残留する「テール」セグメントが再生し続ける可能性があります。エージェントは自動的にこれらをクリアします。setSceneLayoutを手動で適用してB-Rollが長く再生される場合は、テール範囲にmode: "pictureInPicture"でsetSceneLayoutを呼び出してクリアしてください。


    すべてをまとめる

    # 1. プロジェクトフォルダーでClaude Codeを起動
    claude
    
    # 2. トランスクリプトカット
    "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
    # → カットリストを確認 → "yes"
    
    # 3. B-Roll
    "Add B-roll — centered layout, medium density, cute English visuals"
    # → 7スロットビートメニューを確認 → "Medium, looks good"
    # → エージェントが並列生成、直列レンダリング、DSL適用(約3分)
    
    # 4. スポットチェック
    "Show me slot 4 at 18s"
    # → ScreenKiteでスクラブ
    
    # 5. 必要に応じて調整
    "Slot 4 — change the node diagram to use mint green for all nodes"
    

    実際の作業時間:5分未満。レンダリング時間:7スロットで約2–3分。

    より多くのワークフロー、サンプルプロンプト、コミュニティスキル:github.com/ScreenKite/awesome-ai-video-editing

    前へ

    ← デバイスフレーム

    次へ

    ワードレベルの自動字幕生成→