ScreenKiteScreenKite|ガイド
    • ScreenKiteのインストール
    • システム要件
    • 権限の設定
    • 新規録画
    • 画面全体の録画
    • ウィンドウの録画
    • 選択エリアの録画
    • ウェブカメラとマイク
    • システムオーディオ
    • iOSデバイスの録画
    • キーボードショートカット
    • スクリーンショットの共有
    • オートズーム
    • ズーム設定の構成
    • プロジェクトエディターの概要
    • タイムラインとトラック
    • トリミングと分割
    • 外観のカスタマイズ
    • デバイスフレーム
    • Agentic Video Editing
    • ワードレベルの自動字幕生成
    • プレビュー品質
    • AIチャットアシスタント
    • エディター設定
    • エクスポート設定
    • Final Cut Proへの書き出し(FCPXML)
    • 一般的な問題と解決策
    • システム権限とアクセス
    ← ScreenKite ホームページ
    ガイド/編集

    ワードレベルの自動字幕生成

    ScreenKiteの生成字幕はワードレベル(単語単位)です。文全体やクリップ全体に対して1つの長い字幕ブロックを作成する代わりに、話された単語ごとに1つの字幕キューを作成します。これにより、Screen Studioスタイルの短い字幕表示や、正確なエージェントワークフローに必要なタイミングデータがエディターに提供されます。

    字幕を生成する前に

    Settings(設定)-> Transcription(トランスクリプト)を開き、Word-Level(ワードレベル)タブを設定します:

    1. 通常のセットアップでは Automatic(自動)を選択します。APIキーが設定されている場合はElevenLabsを使用し、そうでない場合はダウンロード済みのWhisperKitモデルにフォールバックします。
    2. ホスト型のScribeワードタイミングを使用する場合は、ElevenLabs を選択します。
    3. ダウンロードしたモデルからデバイス上のWhisperKitワードタイムスタンプを使用する場合は、Local(ローカル)を選択します。

    OpenAI、Groq、Azure OpenAIは、生成字幕のタイミング決定には使用されません。これらは、AIによるクリーンアップ、校正、または明示的なトランスクリプト(文字起こしデータ)のエクスポートワークフロー用に、Text & Export(テキスト&エクスポート)タブの下で引き続き設定可能です。

    ✅

    最も信頼性の高い生成字幕を作成するには、マイクのナレーションを専用のトラックとして録音してください。マイクのオーディオが利用できない場合、ScreenKiteは代替オーディオやメインオーディオから字幕を生成することもできます。

    ElevenLabsキーの検証

    ElevenLabsでAPIキーを入力した後、Test Key(キーをテスト)をクリックして検証します。結果はボタンの横にインラインで表示されます:

    ラベル原因
    Valid for Speech to Textキーが受け入れられ、必要なスコープを持っています。
    Invalid API keyHTTP 401 — キーの形式が正しくない、失効している、または別のワークスペースに属しています。
    Key needs ElevenLabs Speech to Text permissionHTTP 403 — キーは存在しますが、必要なスコープが不足しています。ElevenLabsのダッシュボードを開き、Speech to Text(音声文字変換)へのアクセスが含まれるようにAPIキースコープを更新してください。
    オレンジ色の警告(例:「ElevenLabs rate limit reached. Try again later.」)HTTP 429 — ElevenLabsのレート制限に達しました。しばらく待ってから再度テストしてください。

    レート制限やその他の一時的なメッセージは複数行に折り返されることがあり、ラベルは全文を表示するために垂直方向に拡張されます。

    ✅

    以前にダウンロードしたWhisperKitモデルを削除し、ステータスバッジにModel not downloaded(モデルがダウンロードされていません)と表示されている場合は、Settings -> Transcription -> Word-Level を開き、ピッカーからモデルを選択して Download Selected Model をクリックし、復元してください。

    字幕の生成

    1. プロジェクトエディターで .skbundle プロジェクトを開きます。
    2. プロジェクトにマイク、代替、またはメインのオーディオが含まれていることを確認します。
    3. エディター内の字幕生成アクションを使用するか、エージェントに字幕の生成を依頼します。
    4. ScreenKiteは、設定されたワードレベルプロバイダーを使用してオーディオを文字起こしします。
    5. ScreenKiteは、各キューが話された1単語に対応するSRTをインポートします。

    結果として、文の長さの塊ではなく、短い単語単位のタイミングを持つクリップで構成される字幕トラックが作成されます。プロバイダーから音声が検出されなかった場合、ScreenKiteは音声が検出されなかった旨を報告します。プロバイダーが単語のタイムスタンプなしで文のセグメントのみを返す場合、大まかな長い字幕を作成する代わりに、字幕の生成は停止します。

    エージェントワークフロー

    エージェントはアプリと同じワードレベルの字幕パスを使用します。プロンプトは以下のように直接指定できます:

    codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
    

    トランスクリプトによるカット、フィラーワード(えー、あの等の無駄な言葉)のクリーンアップ、またはB-Rollの計画において、エージェントは同じ単語のタイムスタンプを再利用できるため、カットやビジュアルの拍(ビート)が音声と一致した状態を維持できます。

    ターミナルを使わずに字幕生成を実行するには、組み込みのAI Chat Assistantを使用してください。チャットパネルでテキストプロンプトを入力するだけで、同じ字幕ツールにアクセスできます。

    タイムラインの動作

    生成された字幕は、タイムラインのCaptions(字幕)トラックに表示されます。すべての単語に独自のキューがあるため、単語単位の細かさでタイミングを確認および編集できます。

    トラックナビゲーションの基本についてはTimeline & Tracksを、トランスクリプト駆動の編集ワークフローについてはAgentic Video Editingをご覧ください。

    前へ

    ← Agentic Video Editing

    次へ

    プレビュー品質→