ScreenKite 中產生的字幕是詞級的。ScreenKite 不會為整句話或整段視訊建立一個長字幕區塊，而是為每個說出的單詞建立一個字幕提示。這為編輯器提供了所需的精確時間資料，以實現短小、類似 Screen Studio 風格的字幕漸顯以及精準的 Agent 工作流程。

產生字幕前

開啟 Settings (設定) -> Transcription (轉錄) 並設定 Word-Level (詞級) 索引標籤：

選擇 Automatic (自動) 進行常規設定。設定 API 金鑰後，ScreenKite 將使用 ElevenLabs，否則將回復至已下載的 WhisperKit 模型。
當您需要託管的 Scribe 單詞時間時，選擇 ElevenLabs。
當您需要已下載模型的本機 WhisperKit 裝置端單詞時間戳記时，選擇 Local (本機)。

OpenAI、Groq 和 Azure OpenAI 不用於產生字幕的時間。它們仍可在 Text & Export (文字與匯出) 下進行設定，用於 AI 整理、校對或顯式轉錄文字匯出工作流程。

在 ElevenLabs 下輸入 API 金鑰後，點按 Test Key (測試金鑰) 進行驗證。結果將直接顯示在按鈕旁邊：

標籤	原因
Valid for Speech to Text	金鑰已被接受並擁有所需的權限範圍 (scope)。
Invalid API key	HTTP 401 — 金鑰格式錯誤、已被撤銷或屬於其他工作區。
Key needs ElevenLabs Speech to Text permission	HTTP 403 — 金鑰存在但缺少所需的權限範圍。請開啟 ElevenLabs 控制面板，更新您的 API 金鑰範圍以包含 Speech to Text 存取權限。
橙色警告（例如 "ElevenLabs rate limit reached. Try again later."）	HTTP 429 — 您已達到 ElevenLabs 的速率限制。請稍等片刻並重新測試。

速率限制與其他臨時訊息可能會折行為多行——標籤會垂直展開以顯示完整文字。

產生字幕

其結果是一個由簡短的詞級時間片段組成的字幕軌道，而不是句子長度的字幕區塊。如果提供商未傳回任何語音，ScreenKite 會報告未偵測到語音。如果提供商僅傳回不帶單詞時間戳記的句子片段，產生字幕將停止，而不是建立近似的長字幕。

Agent 使用與應用程式相同的詞級字幕路徑。提示詞可以非常直接，例如：

codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"

對於轉錄剪輯、贅字整理或 B-roll 規劃，Agent 可以重用相同的單詞時間戳記，從而使剪輯和視覺節奏與演講保持同步。

若要在沒有終端機的情況下觸發字幕產生，請使用內建的 AI Chat Assistant (AI 聊天助手)——它可以使用相同的字幕工具，並且只需在聊天面板中輸入文字提示詞。

產生的字幕將顯示在時間軸的 Captions (字幕) 軌道上。因為每個單詞都有自己的提示，所以您可以按單詞細粒度檢查和編輯時間。

請參閱 Timeline & Tracks (時間軸與軌道) 了解軌道導覽基礎，參閱 Agentic Video Editing (智慧視訊編輯) 了解轉錄驅動的編輯工作流程。