ScreenKite 中生成的字幕是词级的。ScreenKite 不会为整句话或整段视频创建一个长字幕块,而是为每个说出的单词创建一个字幕提示。这为编辑器提供了所需的精确时间数据,用于实现短小、类似 Screen Studio 风格的字幕渐显以及精准的 Agent 工作流。
生成字幕前
打开 Settings (设置) -> Transcription (转录) 并配置 Word-Level (词级) 选项卡:
- 选择 Automatic (自动) 进行常规设置。配置 API 密钥后,ScreenKite 将使用 ElevenLabs,否则将回退到已下载的 WhisperKit 模型。
- 当您需要托管的 Scribe 单词时间戳时,选择 ElevenLabs。
- 当您需要已下载模型的本地 WhisperKit 设备端单词时间戳时,选择 Local (本地)。
OpenAI、Groq 和 Azure OpenAI 不用于生成字幕的时间戳。它们仍可在 Text & Export (文本与导出) 下进行配置,用于 AI 整理、校对或显式转录文本导出工作流。
ElevenLabs 密钥验证
在 ElevenLabs 下输入 API 密钥后,点击 Test Key (测试密钥) 进行验证。结果将直接显示在按钮旁边:
| 标签 | 原因 |
|---|---|
| Valid for Speech to Text | 密钥已被接受并拥有所需的权限范围 (scope)。 |
| Invalid API key | HTTP 401 — 密钥格式错误、已被撤销或属于其他工作区。 |
| Key needs ElevenLabs Speech to Text permission | HTTP 403 — 密钥存在但缺少所需的权限范围。请打开 ElevenLabs 控制面板,更新您的 API 密钥范围以包含 Speech to Text 访问权限。 |
| 橙色警告(例如 "ElevenLabs rate limit reached. Try again later.") | HTTP 429 — 您已达到 ElevenLabs 的速率限制。请稍等片刻并重新测试。 |
速率限制和其他临时消息可能会折行为多行——标签会垂直展开以显示完整文本。
生成字幕
- 在项目编辑器中打开
.skbundle项目。 - 确保项目包含麦克风、替代或主音频。
- 在编辑器中使用字幕生成操作,或让 Agent 来生成字幕。
- ScreenKite 将使用配置的词级提供商对音频进行转录。
- ScreenKite 导入一个 SRT 文件,其中每个提示对应一个口语单词。
其结果是一个由简短的词级时间戳片段组成的字幕轨道,而不是句子长度的字幕块。如果提供商未返回任何语音,ScreenKite 会报告未检测到语音。如果提供商仅返回不带单词时间戳的句子片段,生成字幕将停止,而不是创建近似的长字幕。
Agent 工作流
Agent 使用与应用相同的词级字幕路径。提示词可以非常直接,例如:
codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
对于转录剪辑、语气词整理或 B-roll 规划,Agent 可以重用相同的单词时间戳,从而使剪辑和视觉节奏与演讲保持同步。
若要在没有终端的情况下触发字幕生成,请使用内置的 AI Chat Assistant (AI 聊天助手)——它可以使用相同的字幕工具,并且只需在聊天面板中输入文本提示词。
时间线行为
生成的字幕将显示在时间线的 Captions (字幕) 轨道上。因为每个单词都有自己的提示,所以您可以按单词细粒度检查和编辑时间。
请参阅 Timeline & Tracks (时间线与轨道) 了解轨道导航基础,参阅 Agentic Video Editing (智能视频编辑) 了解转录驱动的编辑工作流。