Los subtítulos generados en ScreenKite son a nivel de palabra. En lugar de crear un único bloque de subtítulos largo para una oración o clip completo, ScreenKite crea una indicación de subtítulo por cada palabra hablada. Esto proporciona al editor los datos de tiempo necesarios para revelaciones cortas de subtítulos al estilo de Screen Studio y flujos de trabajo precisos de agentes.
Antes de generar subtítulos
Abre Settings (Ajustes) -> Transcription (Transcripción) y configura la pestaña Word-Level (Nivel de palabra):
- Elige Automatic (Automático) para la configuración normal. ScreenKite utiliza ElevenLabs cuando hay una clave de API configurada y, como alternativa, recurre a un modelo de WhisperKit descargado.
- Elige ElevenLabs cuando desees tiempos de palabras alojados de Scribe.
- Elige Local cuando desees marcas de tiempo de palabras de WhisperKit en el dispositivo a partir de un modelo descargado.
OpenAI, Groq y Azure OpenAI no se utilizan para los tiempos de los subtítulos generados. Aún se pueden configurar en Text & Export (Texto y Exportación) para limpieza con IA, corrección de pruebas o flujos de trabajo de exportación explícita de transcripciones.
Validación de clave de ElevenLabs
Después de introducir una clave de API en ElevenLabs, haz clic en Test Key (Probar clave) para verificarla. El resultado aparece en línea junto al botón:
| Etiqueta | Causa |
|---|---|
| Valid for Speech to Text | La clave es aceptada y tiene el alcance (scope) requerido. |
| Invalid API key | HTTP 401 — la clave está malformada, revocada o pertenece a un espacio de trabajo diferente. |
| Key needs ElevenLabs Speech to Text permission | HTTP 403 — la clave existe pero carece del alcance requerido. Abre el panel de ElevenLabs y actualiza los alcances de tu clave de API para incluir el acceso a Speech to Text. |
| Advertencia naranja (p. ej. "ElevenLabs rate limit reached. Try again later.") | HTTP 429 — has alcanzado el límite de velocidad de ElevenLabs. Espera un momento y vuelve a probar. |
Los mensajes de límite de velocidad y otros mensajes transitorios pueden distribuirse en varias líneas; la etiqueta se expande verticalmente para mostrar el texto completo.
Generar subtítulos
- Abre un proyecto
.skbundleen el Editor de proyectos. - Asegúrate de que el proyecto tenga audio de micrófono, de reemplazo o audio principal.
- Utiliza la acción de generación de subtítulos en el editor o pídele a un agente que genere subtítulos.
- ScreenKite transcribe el audio con el proveedor a nivel de palabra configurado.
- ScreenKite importa un archivo SRT donde cada indicación se asigna a una palabra hablada.
El resultado es una pista de subtítulos compuesta por clips cortos programados por palabras en lugar de fragmentos del tamaño de una oración. Si el proveedor no devuelve voz, ScreenKite informa de que no se detectó voz. Si el proveedor solo devuelve segmentos de oraciones sin marcas de tiempo de palabras, la generación de subtítulos se detiene en lugar de crear subtítulos largos aproximados.
Flujo de trabajo del agente
Los agentes utilizan la misma ruta de subtítulos a nivel de palabra que la aplicación. Una instrucción (prompt) puede ser tan directa como:
codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
Para cortes de transcripción, limpieza de palabras de relleno o planificación de B-roll, el agente puede reutilizar las mismas marcas de tiempo de las palabras para que los cortes y los ritmos visuales se mantengan alineados con el habla.
Para activar la generación de subtítulos sin una terminal, utiliza el Asistente de Chat con IA integrado; tiene acceso a las mismas herramientas de subtítulos y solo requiere una instrucción de texto en el panel de chat.
Comportamiento en la línea de tiempo
Los subtítulos generados aparecen en una pista de Captions (Subtítulos) en la línea de tiempo. Dado que cada palabra tiene su propia indicación, puedes inspeccionar y editar los tiempos con granularidad de palabra.
Consulta Línea de tiempo y pistas para conocer los aspectos básicos de la navegación por las pistas, y Agentic Video Editing para los flujos de trabajo de edición basados en transcripciones.