ScreenKiteScreenKite|指南
    • 安裝 ScreenKite
    • 系統需求
    • 設定權限
    • 建立新錄製
    • 錄製整個顯示器
    • 錄製視窗
    • 錄製區域
    • 視訊鏡頭與麥克風
    • 系統音訊
    • 錄製 iOS 裝置
    • 鍵盤快捷鍵
    • 分享截圖
    • 自動縮放
    • 設定縮放選項
    • 專案編輯器概覽
    • 時間軸與軌道
    • 裁切與分割
    • 外觀自訂
    • 裝置外框
    • Agentic Video Editing
    • 詞級產生字幕
    • 預覽品質
    • AI 聊天助手
    • 編輯器設定
    • 匯出設定
    • 匯出到 Final Cut Pro (FCPXML)
    • 常見問題
    • 權限與存取
    ← ScreenKite 首頁
    指南/編輯

    詞級產生字幕

    ScreenKite 中產生的字幕是詞級的。ScreenKite 不會為整句話或整段視訊建立一個長字幕區塊,而是為每個說出的單詞建立一個字幕提示。這為編輯器提供了所需的精確時間資料,以實現短小、類似 Screen Studio 風格的字幕漸顯以及精準的 Agent 工作流程。

    產生字幕前

    開啟 Settings (設定) -> Transcription (轉錄) 並設定 Word-Level (詞級) 索引標籤:

    1. 選擇 Automatic (自動) 進行常規設定。設定 API 金鑰後,ScreenKite 將使用 ElevenLabs,否則將回復至已下載的 WhisperKit 模型。
    2. 當您需要託管的 Scribe 單詞時間時,選擇 ElevenLabs。
    3. 當您需要已下載模型的本機 WhisperKit 裝置端單詞時間戳記时,選擇 Local (本機)。

    OpenAI、Groq 和 Azure OpenAI 不用於產生字幕的時間。它們仍可在 Text & Export (文字與匯出) 下進行設定,用於 AI 整理、校對或顯式轉錄文字匯出工作流程。

    ✅

    為了獲得最可靠的產生字幕,請將麥克風旁白錄製為獨立軌道。當麥克风音訊不可用時,ScreenKite 也可以從替代音訊或主音訊產生字幕。

    ElevenLabs 金鑰驗證

    在 ElevenLabs 下輸入 API 金鑰後,點按 Test Key (測試金鑰) 進行驗證。結果將直接顯示在按鈕旁邊:

    標籤原因
    Valid for Speech to Text金鑰已被接受並擁有所需的權限範圍 (scope)。
    Invalid API keyHTTP 401 — 金鑰格式錯誤、已被撤銷或屬於其他工作區。
    Key needs ElevenLabs Speech to Text permissionHTTP 403 — 金鑰存在但缺少所需的權限範圍。請開啟 ElevenLabs 控制面板,更新您的 API 金鑰範圍以包含 Speech to Text 存取權限。
    橙色警告(例如 "ElevenLabs rate limit reached. Try again later.")HTTP 429 — 您已達到 ElevenLabs 的速率限制。請稍等片刻並重新測試。

    速率限制與其他臨時訊息可能會折行為多行——標籤會垂直展開以顯示完整文字。

    ✅

    如果您刪除了先前下載的 WhisperKit 模型,且狀態徽章顯示 Model not downloaded (模型未下載),請開啟 Settings (設定) -> Transcription (轉錄) -> Word-Level (詞級),從選取器中選擇該模型,然後點按 Download Selected Model (下載所選模型) 進行還原。

    產生字幕

    1. 在專案編輯器中開啟 .skbundle 專案。
    2. 確保專案包含麥克風、替代或主音訊。
    3. 在編輯器中使用字幕產生動作,或要求 Agent 來產生字幕。
    4. ScreenKite 將使用設定的詞級提供商對音訊進行轉錄。
    5. ScreenKite 匯入一個 SRT 檔案,其中每個提示對應一個口語單詞。

    其結果是一個由簡短的詞級時間片段組成的字幕軌道,而不是句子長度的字幕區塊。如果提供商未傳回任何語音,ScreenKite 會報告未偵測到語音。如果提供商僅傳回不帶單詞時間戳記的句子片段,產生字幕將停止,而不是建立近似的長字幕。

    Agent 工作流程

    Agent 使用與應用程式相同的詞級字幕路徑。提示詞可以非常直接,例如:

    codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
    

    對於轉錄剪輯、贅字整理或 B-roll 規劃,Agent 可以重用相同的單詞時間戳記,從而使剪輯和視覺節奏與演講保持同步。

    若要在沒有終端機的情況下觸發字幕產生,請使用內建的 AI Chat Assistant (AI 聊天助手)——它可以使用相同的字幕工具,並且只需在聊天面板中輸入文字提示詞。

    時間軸行為

    產生的字幕將顯示在時間軸的 Captions (字幕) 軌道上。因為每個單詞都有自己的提示,所以您可以按單詞細粒度檢查和編輯時間。

    請參閱 Timeline & Tracks (時間軸與軌道) 了解軌道導覽基礎,參閱 Agentic Video Editing (智慧視訊編輯) 了解轉錄驅動的編輯工作流程。

    上一篇

    ← Agentic Video Editing

    下一篇

    預覽品質→