ScreenKite에서 생성되는 자막은 단어 수준으로 이루어집니다. 전체 문장이나 클립에 대해 하나의 긴 자막 블록을 만드는 대신, ScreenKite는 말하는 단어당 하나의 자막 큐를 만듭니다. 이를 통해 편집기는 Screen Studio 스타일의 짧은 자막 표시 효과나 정밀한 에이전트 워크플로에 필요한 타이밍 데이터를 제공받을 수 있습니다.
자막을 생성하기 전에
Settings(설정) -> **Transcription(트랜스크립션)**을 열고 Word-Level(단어 수준) 탭을 구성하세요:
- 일반적인 설정의 경우 **Automatic(자동)**을 선택합니다. ScreenKite는 API 키가 구성되어 있으면 ElevenLabs를 사용하고, 그렇지 않으면 다운로드한 WhisperKit 모델로 폴백합니다.
- Scribe 호스팅 단어 타이밍을 원할 경우 ElevenLabs를 선택합니다.
- 다운로드한 모델을 통해 기기 로컬에서 WhisperKit 단어 타임스탬프를 얻으려면 **Local(로컬)**을 선택합니다.
OpenAI, Groq 및 Azure OpenAI는 생성 자막의 타이밍 계산에 사용되지 않습니다. 이들은 AI 텍스트 정리, 교정 또는 명시적인 트랜스크립트 내보내기 워크플로를 위해 여전히 Text & Export(텍스트 및 내보내기) 탭 아래에서 구성할 수 있습니다.
ElevenLabs 키 유효성 검사
ElevenLabs 아래에 API 키를 입력한 후, **Test Key(키 테스트)**를 클릭하여 유효성을 검사합니다. 결과는 버튼 옆에 인라인으로 표시됩니다:
| 레이블 | 원인 |
|---|---|
| Valid for Speech to Text | 키가 수락되었으며 필요한 권한 범위를 가지고 있습니다. |
| Invalid API key | HTTP 401 — 키가 잘못 구성되었거나, 만료되었거나, 다른 워크스페이스에 속해 있습니다. |
| Key needs ElevenLabs Speech to Text permission | HTTP 403 — 키는 존재하지만 필요한 권한 범위가 누락되었습니다. ElevenLabs 대시보드를 열고 Speech to Text 접근 권한을 포함하도록 API 키 권한 범위를 업데이트하세요. |
| 주황색 경고 (예: "ElevenLabs rate limit reached. Try again later.") | HTTP 429 — ElevenLabs 요청 제한에 도달했습니다. 잠시 대기한 후 다시 테스트하세요. |
요청 제한 및 기타 일시적인 메시지는 여러 줄로 래핑될 수 있으며, 전체 텍스트를 보여주기 위해 레이블이 세로로 확장됩니다.
자막 생성하기
- 프로젝트 편집기에서
.skbundle프로젝트를 엽니다. - 프로젝트에 마이크, 대체 또는 메인 오디오가 포함되어 있는지 확인합니다.
- 편집기 내 자막 생성 기능을 사용하거나 에이전트에게 자막 생성을 요청합니다.
- ScreenKite가 구성된 단어 수준 제공자를 사용하여 오디오를 트랜스크립트합니다.
- ScreenKite가 각 큐가 말한 단어 하나에 일치하는 SRT 파일을 가져옵니다.
그 결과 문장 길이의 덩어리 대신 짧은 단어 타이밍 클립으로 구성된 자막 트랙이 생성됩니다. 제공자가 오디오에서 말을 인식하지 못한 경우, ScreenKite는 음성이 감지되지 않았다고 보고합니다. 제공자가 단어 타임스탬프 없이 문장 단위의 세그먼트만 반환하는 경우, 대략적인 긴 자막을 만드는 대신 자막 생성이 중단됩니다.
에이전트 워크플로
에이전트는 앱과 동일한 단어 수준 자막 경로를 사용합니다. 다음과 같이 직접 프롬프트를 보낼 수 있습니다:
codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
트랜스크립트 컷, 필러 단어 정리 또는 B-roll 계획을 수행할 때, 에이전트는 동일한 단어 타임스탬프를 재사용할 수 있으므로 컷과 시각적 비트가 말소리와 정확히 일치하도록 유지됩니다.
터미널 없이 자막 생성을 트리거하려면 내장된 AI 채팅 도우미(AI Chat Assistant)를 사용하세요. 채팅 패널에서 텍스트 프롬프트만 입력하면 동일한 자막 도구에 액세스할 수 있습니다.
타임라인 동작
생성된 자막은 타임라인의 Captions(자막) 트랙에 나타납니다. 모든 단어마다 자체 큐를 가지고 있기 때문에, 단어 단위로 세밀하게 타이밍을 검사하고 편집할 수 있습니다.
트랙 탐색의 기본 사항은 타임라인 및 트랙(Timeline & Tracks)을 참조하고, 트랜스크립트 기반 편집 워크플로는 에이전트 기반 비디오 편집(Agentic Video Editing)을 참조하세요.