As legendas geradas no ScreenKite são ao nível da palavra. Em vez de criar um único bloco longo de subtítulo para uma frase ou clip completo, o ScreenKite cria uma indicação de legenda por cada palavra falada. Isto fornece ao editor os dados de temporização necessários para revelações de legendas curtas (ao estilo do Screen Studio) e fluxos de trabalho de agentes precisos.
Antes de Gerar Legendas
Abra Settings (Definições) -> Transcription (Transcrição) e configure o separador Word-Level (Nível de palavra):
- Escolha Automatic (Automático) para a configuração normal. O ScreenKite utiliza o ElevenLabs quando uma chave de API está configurada, e reverte para um modelo WhisperKit descarregado se esta não existir.
- Escolha ElevenLabs se pretender utilizar as temporizações de palavras do serviço alojado Scribe.
- Escolha Local se pretender obter marcas de tempo de palavras do WhisperKit no próprio dispositivo, a partir de um modelo descarregado.
As opções OpenAI, Groq e Azure OpenAI não são utilizadas para a temporização de legendas geradas. Podem ainda assim ser configuradas em Text & Export (Texto e Exportação) para limpeza por IA, revisão ou fluxos de trabalho específicos de exportação de transcrições.
Validação da Chave ElevenLabs
Após introduzir uma chave de API sob ElevenLabs, clique em Test Key (Testar Chave) para a verificar. O resultado aparece inline ao lado do botão:
| Etiqueta | Causa |
|---|---|
| Valid for Speech to Text | A chave é aceite e tem o âmbito (scope) necessário. |
| Invalid API key | HTTP 401 — a chave está malformada, revogada ou pertence a uma área de trabalho diferente. |
| Key needs ElevenLabs Speech to Text permission | HTTP 403 — a chave existe mas não tem o âmbito necessário. Abra o painel da ElevenLabs e atualize os âmbitos da sua chave de API para incluir acesso a Speech to Text. |
| Aviso cor de laranja (ex. "ElevenLabs rate limit reached. Try again later.") | HTTP 429 — atingiu o limite de taxa (rate limit) da ElevenLabs. Aguarde um momento e teste novamente. |
As mensagens de limite de taxa e outras mensagens temporárias podem ocupar várias linhas — a etiqueta expande-se verticalmente para mostrar o texto completo.
Gerar Legendas
- Abra um projeto
.skbundleno Editor de projeto. - Certifique-se de que o projeto contém áudio de microfone, de substituição ou áudio principal.
- Utilize a ação de geração de legendas no editor ou peça a um agente para as gerar.
- O ScreenKite transcreve o áudio com o fornecedor ao nível da palavra configurado.
- O ScreenKite importa um ficheiro SRT onde cada indicação corresponde a uma palavra falada.
O resultado é uma faixa de legendas composta por pequenos clips temporizados por palavra, em vez de blocos com o comprimento de frases. Se o fornecedor não detetar fala, o ScreenKite informa que não foi detetada fala. Se o fornecedor devolver apenas segmentos de frases sem marcas de tempo por palavra, a geração de legendas é interrompida em vez de criar legendas longas aproximadas.
Fluxo de Trabalho com Agente
Os agentes utilizam o mesmo caminho de legendagem ao nível da palavra que a aplicação. Um prompt pode ser tão direto como:
codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
Para cortes na transcrição, limpeza de palavras de preenchimento ou planeamento de B-roll, o agente pode reutilizar as mesmas marcas de tempo de palavras para que os cortes e os beats visuais permaneçam alinhados com a fala.
Para acionar a geração de legendas sem o terminal, utilize o AI Chat Assistant integrado — este tem acesso às mesmas ferramentas de legendagem e requer apenas um prompt de texto no painel de chat.
Comportamento da Linha de Tempo
As legendas geradas aparecem numa faixa de Captions (Legendas) na linha de tempo. Como cada palavra tem a sua própria indicação, pode inspecionar e editar a temporização com granularidade ao nível da palavra.
Consulte Timeline & Tracks para obter as noções básicas de navegação nas faixas e Agentic Video Editing para fluxos de trabalho de edição baseados na transcrição.