ScreenKite 中產生的字幕是詞級的。ScreenKite 不會為整句話或整段視訊建立一個長字幕區塊,而是為每個說出的單詞建立一個字幕提示。這為編輯器提供了所需的精確時間資料,以實現短小、類似 Screen Studio 風格的字幕漸顯以及精準的 Agent 工作流程。
產生字幕前
開啟 Settings (設定) -> Transcription (轉錄) 並設定 Word-Level (詞級) 索引標籤:
- 選擇 Automatic (自動) 進行常規設定。設定 API 金鑰後,ScreenKite 將使用 ElevenLabs,否則將回復至已下載的 WhisperKit 模型。
- 當您需要託管的 Scribe 單詞時間時,選擇 ElevenLabs。
- 當您需要已下載模型的本機 WhisperKit 裝置端單詞時間戳記时,選擇 Local (本機)。
OpenAI、Groq 和 Azure OpenAI 不用於產生字幕的時間。它們仍可在 Text & Export (文字與匯出) 下進行設定,用於 AI 整理、校對或顯式轉錄文字匯出工作流程。
ElevenLabs 金鑰驗證
在 ElevenLabs 下輸入 API 金鑰後,點按 Test Key (測試金鑰) 進行驗證。結果將直接顯示在按鈕旁邊:
| 標籤 | 原因 |
|---|---|
| Valid for Speech to Text | 金鑰已被接受並擁有所需的權限範圍 (scope)。 |
| Invalid API key | HTTP 401 — 金鑰格式錯誤、已被撤銷或屬於其他工作區。 |
| Key needs ElevenLabs Speech to Text permission | HTTP 403 — 金鑰存在但缺少所需的權限範圍。請開啟 ElevenLabs 控制面板,更新您的 API 金鑰範圍以包含 Speech to Text 存取權限。 |
| 橙色警告(例如 "ElevenLabs rate limit reached. Try again later.") | HTTP 429 — 您已達到 ElevenLabs 的速率限制。請稍等片刻並重新測試。 |
速率限制與其他臨時訊息可能會折行為多行——標籤會垂直展開以顯示完整文字。
產生字幕
- 在專案編輯器中開啟
.skbundle專案。 - 確保專案包含麥克風、替代或主音訊。
- 在編輯器中使用字幕產生動作,或要求 Agent 來產生字幕。
- ScreenKite 將使用設定的詞級提供商對音訊進行轉錄。
- ScreenKite 匯入一個 SRT 檔案,其中每個提示對應一個口語單詞。
其結果是一個由簡短的詞級時間片段組成的字幕軌道,而不是句子長度的字幕區塊。如果提供商未傳回任何語音,ScreenKite 會報告未偵測到語音。如果提供商僅傳回不帶單詞時間戳記的句子片段,產生字幕將停止,而不是建立近似的長字幕。
Agent 工作流程
Agent 使用與應用程式相同的詞級字幕路徑。提示詞可以非常直接,例如:
codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
對於轉錄剪輯、贅字整理或 B-roll 規劃,Agent 可以重用相同的單詞時間戳記,從而使剪輯和視覺節奏與演講保持同步。
若要在沒有終端機的情況下觸發字幕產生,請使用內建的 AI Chat Assistant (AI 聊天助手)——它可以使用相同的字幕工具,並且只需在聊天面板中輸入文字提示詞。
時間軸行為
產生的字幕將顯示在時間軸的 Captions (字幕) 軌道上。因為每個單詞都有自己的提示,所以您可以按單詞細粒度檢查和編輯時間。
請參閱 Timeline & Tracks (時間軸與軌道) 了解軌道導覽基礎,參閱 Agentic Video Editing (智慧視訊編輯) 了解轉錄驅動的編輯工作流程。