ScreenKiteScreenKite|Guia
    • Instalar ScreenKite
    • Requisitos del sistema
    • Configurar permisos
    • Nueva grabacion
    • Grabar pantalla completa
    • Grabar una ventana
    • Grabar un area
    • Webcam y microfono
    • Audio del sistema
    • Grabar dispositivos iOS
    • Atajos de teclado
    • Compartir capturas de pantalla
    • Zoom automatico
    • Configurar ajustes de zoom
    • Vista general del Editor de proyectos
    • Linea de tiempo y pistas
    • Recortar y dividir
    • Personalizar la apariencia
    • Marcos de dispositivo
    • Agentic Video Editing
    • Subtítulos generados a nivel de palabra
    • Calidad de Vista Previa
    • Asistente de Chat con IA
    • Configuración del Editor
    • Ajustes de exportacion
    • Exportar a Final Cut Pro (FCPXML)
    • Problemas frecuentes
    • Permisos y acceso
    ← Pagina principal de ScreenKite
    Guia/Edicion

    Agentic Video Editing

    Abre tu grabación .skbundle en ScreenKite y luego dale instrucciones a tu agente de IA (Claude Code, Codex, Gemini CLI o cualquier agente con las herramientas MCP de ScreenKite). El agente hace dos cosas: cortar la transcripción y generar B-Roll con diseños de escena. Tú revisas y apruebas; él ejecuta.

    Flujos de trabajo de la comunidad, prompts y paquetes de habilidades: github.com/ScreenKite/awesome-ai-video-editing


    Preflight: Estado de preparación del modelo local

    Antes de que el agente pueda transcribir usando WhisperKit, los archivos del modelo deben existir en disco. El CLI del agente comprueba esto al iniciarse — si la ruta del modelo seleccionado falta o es obsoleta, verás:

    WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
    

    Para resolver:

    1. Abre Settings (Ajustes) → Transcription (Transcripción).
    2. Selecciona la subpestaña Word-Level (Nivel de palabra).
    3. Establece el proveedor en Local (o Automatic (Automático) para preferir ElevenLabs con WhisperKit como alternativa).
    4. En la sección WhisperKit model (Modelo WhisperKit), elige un modelo del menú y haz clic en Download Selected Model (Descargar modelo seleccionado).
    5. Espera a que la barra de progreso se complete; la etiqueta cambiará a Model downloaded (Modelo descargado).
    6. Vuelve a ejecutar tu comando de agente — la comprobación de preparación pasará.
    ✅

    Las rutas relativas en los comandos del agente se resuelven automáticamente respecto al directorio de trabajo actual del shell antes de enviarse a la app. Puedes pasar ./Recording.skbundle o solo el nombre del archivo si ya estás en la carpeta correcta.


    Instruir al agente

    No escribes código. Escribes una frase. El agente llama a las herramientas CLI y MCP de ScreenKite en tu nombre.

    💡

    ¿Prefieres trabajar todo dentro del editor? El panel integrado de AI Chat (Chat IA) tiene acceso a las mismas herramientas MCP que los agentes externos — sin necesidad de terminal. Consulta AI Chat Assistant (Asistente de Chat IA) para configuración y uso.

    Claude Code

    # Inicia una sesión interactiva en tu carpeta de proyecto
    claude
    
    # Luego escribe:
    Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
    
    # O de una sola vez desde la terminal
    claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
    

    Codex CLI

    codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
    
    # B-roll de una sola vez
    codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
    

    Gemini CLI

    gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
    

    Lo que el agente llama realmente

    Bajo el capó, cada sesión comienza con:

    # Abrir el proyecto
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
      --path ~/Desktop/Recording.skbundle --json
    
    # Leer el estado del proyecto
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
      --name getProjectState --input-json '{"scope":"summary"}' --json
    

    Puedes ejecutar estos comandos tú mismo para inspeccionar el estado en cualquier momento. --json en cada llamada hace que la salida sea legible por máquinas.


    Habilidades (Skills)

    Las habilidades son paquetes de prompts prediseñados que enseñan al agente el flujo de trabajo completo para que no tengas que describirlo desde cero. Instálalas una vez; refiérelas por nombre en cualquier sesión.

    Instalar

    npx skills add ScreenKite/awesome-ai-video-editing
    

    Habilidades disponibles

    use-screenkite-advanced-b-roll — Pipeline completo: transcribir con ElevenLabs, empaquetar en vista de frases, corregir nombres propios, proponer menú visual con paquetes de densidad, generar composiciones Hyperframes en paralelo, renderizar a MP4, aplicar DSL setSceneLayout con transiciones magicMove.

    claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
    

    video-use — Edición centrada en transcripción: transcribir, empaquetar, planificar cortes, confirmar, ejecutar. También gestiona corrección de color, subtítulos y superposiciones de animación mediante FFmpeg cuando se trabaja fuera de ScreenKite.

    claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
    

    Invocar una habilidad en Claude Code

    Si tienes Claude Code abierto de forma interactiva, escribe el nombre de la habilidad como comando de barra:

    /use-screenkite-advanced-b-roll
    

    La habilidad carga sus instrucciones y te pide la ruta de la grabación.


    Parte 1 — Cortes basados en transcripción

    Lo que hace el agente

    1. Transcribe la pista de tu micrófono con ElevenLabs Scribe — marcas de tiempo a nivel de palabra, en caché para no volver a subir el mismo archivo
    2. Empaqueta el JSON sin procesar en una vista de frases legible (las frases se rompen en silencios ≥ 0.5s)
    3. Corrige cada nombre de producto o nombre propio mediante búsqueda web — el ASR escucha mal los nombres con frecuencia (p. ej. "ScreenKite" transcrito como "Screencast"); los nombres incorrectos se propagan a todos los subtítulos y visuales posteriores
    4. Propone una lista de cortes con rangos de tiempo exactos y una razón en lenguaje sencillo para cada corte
    5. Espera tu aprobación antes de tocar la línea de tiempo

    Los mismos marcadores de tiempo de palabras generan los subtítulos. Cuando un agente crea subtítulos en ScreenKite, usa el proveedor de transcripción Word-Level (Nivel de palabra) configurado e importa un marcador de subtítulo por palabra hablada en lugar de bloques de oraciones largas. Consulta Word-Level Generated Captions (Subtítulos generados a nivel de palabra) para la configuración en la app.

    ⚠️

    Los cortes de la línea de tiempo no se pueden deshacer mediante el CLI. El agente siempre muestra la lista completa de cortes y espera tu confirmación. Revísala — especialmente los límites del primero y del último.

    Prompt de ejemplo

    Open ~/Desktop/Recording.skbundle and transcribe + cut.
    Show me the cut plan first, don't touch the timeline yet.
    ElevenLabs key is in ~/.config/env/elevenlabs.env
    

    El agente devuelve algo como:

    [000.06–000.66]  "HelloPro."          → false start
    [002.14–002.56]  "Hello."             → second false start
    --- CUT [0 → 2.98s] ---
    [011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
    [043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]
    
    Result: 58.8s → 51.2s
    Apply these 3 cuts?
    

    Responde yes y todos los cortes se aplican en una sola llamada mediante editTimeline(action: "cut", {ranges: [...]}).

    Qué se corta

    • Falsos comienzos — todo lo que precede a la primera frase real (pruebas de micrófono, saludos repetidos)
    • Palabras de relleno — "Eh," "Um," "Como" aisladas con suficiente silencio a ambos lados
    • Frases de transición — "Y a ver," "Bueno pues," "En fin" que rellenan entre los puntos de la narrativa

    El agente nunca corta a mitad de palabra, rellena cada borde del corte con 100–150ms respecto a los límites de las palabras y prefiere silencios ≥ 400ms como objetivos de corte.


    Parte 2 — Generación automática de B-Roll

    Tras los cortes, el agente mapea la transcripción a puntos de ritmo y genera un visual animado para cada uno usando Hyperframes (HTML + GSAP → MP4). Cada visual se coloca como un diseño de escena en ScreenKite con una transición magicMove.

    Estilos de diseño

    Corner PiP — la grabación de pantalla llena el lienzo, el B-Roll aparece como acento en una esquina (40–42% de ancho). Ideal para tutoriales donde el contenido de pantalla es la historia principal.

    Centered B-roll — la grabación de pantalla se minimiza a la esquina superior izquierda (~38%), el B-Roll se reproduce centrado (~56% de ancho). Ideal para presentaciones de productos donde el visual debe ser prominente.

    # Corner PiP (por defecto)
    claude "add B-roll with corner layout"
    
    # Centrado
    claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
    

    Lo que hace el agente

    1. Mapeo de ritmos — mapea las frases de la transcripción cortada a ritmos: nombre del producto, característica clave, flujo de trabajo, CTA
    2. Elección de densidad — propone Escaso (4), Medio (7) o Denso (10); muestra un menú de slots; espera tu elección
    3. Generación en paralelo — despacha un subagente por slot simultáneamente; cada uno escribe una composición Hyperframes completa de 1920×1080
    4. Renders en serie — renderiza cada slot a MP4 en secuencia (los Chrome paralelos corrompen fotogramas)
    5. Aplicación del DSL — llama a setSceneLayout para cada ventana de tiempo con el diseño elegido

    El contrato visual

    Cada visual generado sigue estas reglas:

    • Contenido a fotograma completo — el MP4 de 1920×1080 es el fotograma PiP; el contenido lo rellena de borde a borde (colocar una tarjeta pequeña dentro de un fotograma mayormente vacío la entierra en una esquina dentro de otra esquina)
    • Entrada → pausa → sin salida interna — los visuales animan la entrada (0–1.5s), se asientan en una pausa legible y se detienen. magicMove gestiona la salida. Las fundas internas producen una doble salida rota.
    • Tipografía grande — texto de visualización 160–220px, cuerpo 48–72px; al 40–56% de ancho esto sigue siendo legible en pantalla

    Paquetes de densidad

    PaqueteSlotsEspaciadoSensación
    Escaso4~13s de separaciónLimpio, documental
    Medio7~7s de separaciónEquilibrado (por defecto)
    Denso10~5s de separaciónEnergía de explicación

    Prompt de ejemplo

    Recording is cut. Add B-roll:
    - Centered layout (screen top-left, B-roll center)
    - Medium density
    - Cute, warm visuals
    - All text in English
    

    Iterar en un slot

    Slot 3 should show a Swift logo instead of the Apple emoji.
    Re-render slot 3 and re-apply.
    

    El agente regenera solo ese slot y vuelve a aplicar su ventana DSL. Todo lo demás permanece.

    ⚠️

    Al volver a aplicar una ventana de diseño sobre una anterior más larga, los segmentos residuales de la "cola" pueden seguir reproduciéndose. El agente los limpia automáticamente. Si aplicas setSceneLayout manualmente y ves que el B-Roll se extiende demasiado, llama a setSceneLayout con mode: "pictureInPicture" sobre el rango de la cola para limpiarlo.


    Poniéndolo todo junto

    # 1. Inicia Claude Code en tu carpeta de proyecto
    claude
    
    # 2. Corte de transcripción
    "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
    # → revisa la lista de cortes → "yes"
    
    # 3. B-roll
    "Add B-roll — centered layout, medium density, cute English visuals"
    # → revisa el menú de 7 slots → "Medium, looks good"
    # → el agente genera en paralelo, renderiza en serie, aplica DSL (~3 min)
    
    # 4. Comprobación rápida
    "Show me slot 4 at 18s"
    # → desplázate en ScreenKite
    
    # 5. Ajustar si es necesario
    "Slot 4 — change the node diagram to use mint green for all nodes"
    

    Tiempo de trabajo manual: menos de 5 minutos. Tiempo de renderizado: ~2–3 minutos para 7 slots.

    Para más flujos de trabajo, prompts de ejemplo y habilidades de la comunidad: github.com/ScreenKite/awesome-ai-video-editing

    Anterior

    ← Marcos de dispositivo

    Siguiente

    Subtítulos generados a nivel de palabra→