ScreenKiteScreenKite|Guia
    • Instalar ScreenKite
    • Requisitos del sistema
    • Configurar permisos
    • Nueva grabacion
    • Grabar pantalla completa
    • Grabar una ventana
    • Grabar un area
    • Webcam y microfono
    • Audio del sistema
    • Grabar dispositivos iOS
    • Atajos de teclado
    • Compartir capturas de pantalla
    • Zoom automatico
    • Configurar ajustes de zoom
    • Vista general del Editor de proyectos
    • Linea de tiempo y pistas
    • Recortar y dividir
    • Personalizar la apariencia
    • Marcos de dispositivo
    • Agentic Video Editing
    • Subtítulos generados a nivel de palabra
    • Calidad de Vista Previa
    • Asistente de Chat con IA
    • Configuración del Editor
    • Ajustes de exportacion
    • Exportar a Final Cut Pro (FCPXML)
    • Problemas frecuentes
    • Permisos y acceso
    ← Pagina principal de ScreenKite
    Guia/Edicion

    Subtítulos generados a nivel de palabra

    Los subtítulos generados en ScreenKite son a nivel de palabra. En lugar de crear un único bloque de subtítulos largo para una oración o clip completo, ScreenKite crea una indicación de subtítulo por cada palabra hablada. Esto proporciona al editor los datos de tiempo necesarios para revelaciones cortas de subtítulos al estilo de Screen Studio y flujos de trabajo precisos de agentes.

    Antes de generar subtítulos

    Abre Settings (Ajustes) -> Transcription (Transcripción) y configura la pestaña Word-Level (Nivel de palabra):

    1. Elige Automatic (Automático) para la configuración normal. ScreenKite utiliza ElevenLabs cuando hay una clave de API configurada y, como alternativa, recurre a un modelo de WhisperKit descargado.
    2. Elige ElevenLabs cuando desees tiempos de palabras alojados de Scribe.
    3. Elige Local cuando desees marcas de tiempo de palabras de WhisperKit en el dispositivo a partir de un modelo descargado.

    OpenAI, Groq y Azure OpenAI no se utilizan para los tiempos de los subtítulos generados. Aún se pueden configurar en Text & Export (Texto y Exportación) para limpieza con IA, corrección de pruebas o flujos de trabajo de exportación explícita de transcripciones.

    ✅

    Para obtener los subtítulos generados más fiables, graba la narración del micrófono en su propia pista. ScreenKite también puede generar subtítulos a partir del audio de reemplazo o del audio principal cuando el audio del micrófono no esté disponible.

    Validación de clave de ElevenLabs

    Después de introducir una clave de API en ElevenLabs, haz clic en Test Key (Probar clave) para verificarla. El resultado aparece en línea junto al botón:

    EtiquetaCausa
    Valid for Speech to TextLa clave es aceptada y tiene el alcance (scope) requerido.
    Invalid API keyHTTP 401 — la clave está malformada, revocada o pertenece a un espacio de trabajo diferente.
    Key needs ElevenLabs Speech to Text permissionHTTP 403 — la clave existe pero carece del alcance requerido. Abre el panel de ElevenLabs y actualiza los alcances de tu clave de API para incluir el acceso a Speech to Text.
    Advertencia naranja (p. ej. "ElevenLabs rate limit reached. Try again later.")HTTP 429 — has alcanzado el límite de velocidad de ElevenLabs. Espera un momento y vuelve a probar.

    Los mensajes de límite de velocidad y otros mensajes transitorios pueden distribuirse en varias líneas; la etiqueta se expande verticalmente para mostrar el texto completo.

    ✅

    Si eliminaste un modelo de WhisperKit descargado previamente y la insignia de estado muestra Model not downloaded (Modelo no descargado), abre Settings (Ajustes) -> Transcription (Transcripción) -> Word-Level (Nivel de palabra), selecciona el modelo en el selector y haz clic en Download Selected Model (Descargar modelo seleccionado) para restaurarlo.

    Generar subtítulos

    1. Abre un proyecto .skbundle en el Editor de proyectos.
    2. Asegúrate de que el proyecto tenga audio de micrófono, de reemplazo o audio principal.
    3. Utiliza la acción de generación de subtítulos en el editor o pídele a un agente que genere subtítulos.
    4. ScreenKite transcribe el audio con el proveedor a nivel de palabra configurado.
    5. ScreenKite importa un archivo SRT donde cada indicación se asigna a una palabra hablada.

    El resultado es una pista de subtítulos compuesta por clips cortos programados por palabras en lugar de fragmentos del tamaño de una oración. Si el proveedor no devuelve voz, ScreenKite informa de que no se detectó voz. Si el proveedor solo devuelve segmentos de oraciones sin marcas de tiempo de palabras, la generación de subtítulos se detiene en lugar de crear subtítulos largos aproximados.

    Flujo de trabajo del agente

    Los agentes utilizan la misma ruta de subtítulos a nivel de palabra que la aplicación. Una instrucción (prompt) puede ser tan directa como:

    codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
    

    Para cortes de transcripción, limpieza de palabras de relleno o planificación de B-roll, el agente puede reutilizar las mismas marcas de tiempo de las palabras para que los cortes y los ritmos visuales se mantengan alineados con el habla.

    Para activar la generación de subtítulos sin una terminal, utiliza el Asistente de Chat con IA integrado; tiene acceso a las mismas herramientas de subtítulos y solo requiere una instrucción de texto en el panel de chat.

    Comportamiento en la línea de tiempo

    Los subtítulos generados aparecen en una pista de Captions (Subtítulos) en la línea de tiempo. Dado que cada palabra tiene su propia indicación, puedes inspeccionar y editar los tiempos con granularidad de palabra.

    Consulta Línea de tiempo y pistas para conocer los aspectos básicos de la navegación por las pistas, y Agentic Video Editing para los flujos de trabajo de edición basados en transcripciones.

    Anterior

    ← Agentic Video Editing

    Siguiente

    Calidad de Vista Previa→