ScreenKiteの生成字幕はワードレベル（単語単位）です。文全体やクリップ全体に対して1つの長い字幕ブロックを作成する代わりに、話された単語ごとに1つの字幕キューを作成します。これにより、Screen Studioスタイルの短い字幕表示や、正確なエージェントワークフローに必要なタイミングデータがエディターに提供されます。

字幕を生成する前に

Settings（設定）-> Transcription（トランスクリプト）を開き、Word-Level（ワードレベル）タブを設定します：

通常のセットアップでは Automatic（自動）を選択します。APIキーが設定されている場合はElevenLabsを使用し、そうでない場合はダウンロード済みのWhisperKitモデルにフォールバックします。
ホスト型のScribeワードタイミングを使用する場合は、ElevenLabs を選択します。
Apple Silicon搭載Macでは、ダウンロードしたモデルからデバイス上のWhisperKitワードタイムスタンプを使用する場合に、Local（ローカル）を選択します。

OpenAI、Groq、Azure OpenAIは、生成字幕のタイミング決定には使用されません。これらは、AIによるクリーンアップ、校正、または明示的なトランスクリプト（文字起こしデータ）のエクスポートワークフロー用に、Text & Export（テキスト＆エクスポート）タブの下で引き続き設定可能です。

ElevenLabsキーの検証

ElevenLabsでAPIキーを入力した後、Test Key（キーをテスト）をクリックして検証します。結果はボタンの横にインラインで表示されます：

ラベル	原因
Valid for Speech to Text	キーが受け入れられ、必要なスコープを持っています。
Invalid API key	HTTP 401 — キーの形式が正しくない、失効している、または別のワークスペースに属しています。
Key needs ElevenLabs Speech to Text permission	HTTP 403 — キーは存在しますが、必要なスコープが不足しています。ElevenLabsのダッシュボードを開き、Speech to Text（音声文字変換）へのアクセスが含まれるようにAPIキースコープを更新してください。
オレンジ色の警告（例：「ElevenLabs rate limit reached. Try again later.」）	HTTP 429 — ElevenLabsのレート制限に達しました。しばらく待ってから再度テストしてください。

レート制限やその他の一時的なメッセージは複数行に折り返されることがあり、ラベルは全文を表示するために垂直方向に拡張されます。

字幕の生成

プロジェクトエディターで .skbundle プロジェクトを開きます。
プロジェクトにマイク、代替、またはメインのオーディオが含まれていることを確認します。
エディター内の字幕生成アクションを使用するか、エージェントに字幕の生成を依頼します。
ScreenKiteは、設定されたワードレベルプロバイダーを使用してオーディオを文字起こしします。
ScreenKiteは、各キューが話された1単語に対応するSRTをインポートします。

結果として、文の長さの塊ではなく、短い単語単位のタイミングを持つクリップで構成される字幕トラックが作成されます。プロバイダーから音声が検出されなかった場合、ScreenKiteは音声が検出されなかった旨を報告します。プロバイダーが単語のタイムスタンプなしで文のセグメントのみを返す場合、大まかな長い字幕を作成する代わりに、字幕の生成は停止します。

エージェントワークフロー

エージェントはアプリと同じワードレベルの字幕パスを使用します。プロンプトは以下のように直接指定できます：

codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"

トランスクリプトによるカット、フィラーワード（えー、あの等の無駄な言葉）のクリーンアップ、またはB-Rollの計画において、エージェントは同じ単語のタイムスタンプを再利用できるため、カットやビジュアルの拍（ビート）が音声と一致した状態を維持できます。

ターミナルを使わずに字幕生成を実行するには、組み込みのAI Chat Assistantを使用してください。チャットパネルでテキストプロンプトを入力するだけで、同じ字幕ツールにアクセスできます。

タイムラインの動作

生成された字幕は、タイムラインのCaptions（字幕）トラックに表示されます。すべての単語に独自のキューがあるため、単語単位の細かさでタイミングを確認および編集できます。

トラックナビゲーションの基本についてはTimeline & Tracksを、トランスクリプト駆動の編集ワークフローについてはAgentic Video Editingをご覧ください。

字幕を生成する前に

Settings（設定）-> Transcription（トランスクリプト）を開き、Word-Level（ワードレベル）タブを設定します：

通常のセットアップでは Automatic（自動）を選択します。APIキーが設定されている場合はElevenLabsを使用し、そうでない場合はダウンロード済みのWhisperKitモデルにフォールバックします。
ホスト型のScribeワードタイミングを使用する場合は、ElevenLabs を選択します。
Apple Silicon搭載Macでは、ダウンロードしたモデルからデバイス上のWhisperKitワードタイムスタンプを使用する場合に、Local（ローカル）を選択します。

ElevenLabsキーの検証

ElevenLabsでAPIキーを入力した後、Test Key（キーをテスト）をクリックして検証します。結果はボタンの横にインラインで表示されます：

ラベル	原因
Valid for Speech to Text	キーが受け入れられ、必要なスコープを持っています。
Invalid API key	HTTP 401 — キーの形式が正しくない、失効している、または別のワークスペースに属しています。
Key needs ElevenLabs Speech to Text permission	HTTP 403 — キーは存在しますが、必要なスコープが不足しています。ElevenLabsのダッシュボードを開き、Speech to Text（音声文字変換）へのアクセスが含まれるようにAPIキースコープを更新してください。
オレンジ色の警告（例：「ElevenLabs rate limit reached. Try again later.」）	HTTP 429 — ElevenLabsのレート制限に達しました。しばらく待ってから再度テストしてください。

レート制限やその他の一時的なメッセージは複数行に折り返されることがあり、ラベルは全文を表示するために垂直方向に拡張されます。

字幕の生成

プロジェクトエディターで .skbundle プロジェクトを開きます。
プロジェクトにマイク、代替、またはメインのオーディオが含まれていることを確認します。
エディター内の字幕生成アクションを使用するか、エージェントに字幕の生成を依頼します。
ScreenKiteは、設定されたワードレベルプロバイダーを使用してオーディオを文字起こしします。
ScreenKiteは、各キューが話された1単語に対応するSRTをインポートします。

エージェントワークフロー

エージェントはアプリと同じワードレベルの字幕パスを使用します。プロンプトは以下のように直接指定できます：

codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"

タイムラインの動作

トラックナビゲーションの基本についてはTimeline & Tracksを、トランスクリプト駆動の編集ワークフローについてはAgentic Video Editingをご覧ください。

ワードレベルの自動字幕生成

字幕を生成する前に

ElevenLabsキーの検証

字幕の生成

エージェントワークフロー

タイムラインの動作

ワードレベルの自動字幕生成

字幕を生成する前に

ElevenLabsキーの検証

字幕の生成

エージェントワークフロー

タイムラインの動作