ScreenKiteScreenKite|指南
    • 安装 ScreenKite
    • 系统要求
    • 设置权限
    • 新建录制
    • 录制全屏
    • 录制窗口
    • 录制区域
    • 摄像头与麦克风
    • 系统音频
    • 录制 iOS 设备
    • 键盘快捷键
    • 分享截图
    • 自动缩放
    • 配置缩放设置
    • 项目编辑器概览
    • 时间线与轨道
    • 裁剪与分割
    • 外观自定义
    • 设备边框
    • Agentic Video Editing
    • 词级生成字幕
    • 预览质量
    • AI 聊天助手
    • 编辑器设置
    • 导出设置
    • 导出到 Final Cut Pro (FCPXML)
    • 常见问题
    • 权限与访问
    ← ScreenKite 首页
    指南/编辑

    词级生成字幕

    ScreenKite 中生成的字幕是词级的。ScreenKite 不会为整句话或整段视频创建一个长字幕块,而是为每个说出的单词创建一个字幕提示。这为编辑器提供了所需的精确时间数据,用于实现短小、类似 Screen Studio 风格的字幕渐显以及精准的 Agent 工作流。

    生成字幕前

    打开 Settings (设置) -> Transcription (转录) 并配置 Word-Level (词级) 选项卡:

    1. 选择 Automatic (自动) 进行常规设置。配置 API 密钥后,ScreenKite 将使用 ElevenLabs,否则将回退到已下载的 WhisperKit 模型。
    2. 当您需要托管的 Scribe 单词时间戳时,选择 ElevenLabs。
    3. 当您需要已下载模型的本地 WhisperKit 设备端单词时间戳时,选择 Local (本地)。

    OpenAI、Groq 和 Azure OpenAI 不用于生成字幕的时间戳。它们仍可在 Text & Export (文本与导出) 下进行配置,用于 AI 整理、校对或显式转录文本导出工作流。

    ✅

    为了获得最可靠的生成字幕,请将麦克风旁白录制为独立轨道。当麦克风音频不可用时,ScreenKite 也可以从替代音频或主音频生成字幕。

    ElevenLabs 密钥验证

    在 ElevenLabs 下输入 API 密钥后,点击 Test Key (测试密钥) 进行验证。结果将直接显示在按钮旁边:

    标签原因
    Valid for Speech to Text密钥已被接受并拥有所需的权限范围 (scope)。
    Invalid API keyHTTP 401 — 密钥格式错误、已被撤销或属于其他工作区。
    Key needs ElevenLabs Speech to Text permissionHTTP 403 — 密钥存在但缺少所需的权限范围。请打开 ElevenLabs 控制面板,更新您的 API 密钥范围以包含 Speech to Text 访问权限。
    橙色警告(例如 "ElevenLabs rate limit reached. Try again later.")HTTP 429 — 您已达到 ElevenLabs 的速率限制。请稍等片刻并重新测试。

    速率限制和其他临时消息可能会折行为多行——标签会垂直展开以显示完整文本。

    ✅

    如果您删除了先前下载的 WhisperKit 模型,且状态徽章显示 Model not downloaded (模型未下载),请打开 Settings (设置) -> Transcription (转录) -> Word-Level (词级),从选择器中选择该模型,然后点击 Download Selected Model (下载所选模型) 进行恢复。

    生成字幕

    1. 在项目编辑器中打开 .skbundle 项目。
    2. 确保项目包含麦克风、替代或主音频。
    3. 在编辑器中使用字幕生成操作,或让 Agent 来生成字幕。
    4. ScreenKite 将使用配置的词级提供商对音频进行转录。
    5. ScreenKite 导入一个 SRT 文件,其中每个提示对应一个口语单词。

    其结果是一个由简短的词级时间戳片段组成的字幕轨道,而不是句子长度的字幕块。如果提供商未返回任何语音,ScreenKite 会报告未检测到语音。如果提供商仅返回不带单词时间戳的句子片段,生成字幕将停止,而不是创建近似的长字幕。

    Agent 工作流

    Agent 使用与应用相同的词级字幕路径。提示词可以非常直接,例如:

    codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
    

    对于转录剪辑、语气词整理或 B-roll 规划,Agent 可以重用相同的单词时间戳,从而使剪辑和视觉节奏与演讲保持同步。

    若要在没有终端的情况下触发字幕生成,请使用内置的 AI Chat Assistant (AI 聊天助手)——它可以使用相同的字幕工具,并且只需在聊天面板中输入文本提示词。

    时间线行为

    生成的字幕将显示在时间线的 Captions (字幕) 轨道上。因为每个单词都有自己的提示,所以您可以按单词细粒度检查和编辑时间。

    请参阅 Timeline & Tracks (时间线与轨道) 了解轨道导航基础,参阅 Agentic Video Editing (智能视频编辑) 了解转录驱动的编辑工作流。

    上一篇

    ← Agentic Video Editing

    下一篇

    预览质量→