Abre tu grabación .skbundle en ScreenKite y luego dale instrucciones a tu agente de IA (Claude Code, Codex, Gemini CLI o cualquier agente con las herramientas MCP de ScreenKite). El agente hace dos cosas: cortar la transcripción y generar B-Roll con diseños de escena. Tú revisas y apruebas; él ejecuta.
Flujos de trabajo de la comunidad, prompts y paquetes de habilidades: github.com/ScreenKite/awesome-ai-video-editing
Preflight: Estado de preparación del modelo local
Antes de que el agente pueda transcribir usando WhisperKit, los archivos del modelo deben existir en disco. El CLI del agente comprueba esto al iniciarse — si la ruta del modelo seleccionado falta o es obsoleta, verás:
WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
Para resolver:
- Abre Settings (Ajustes) → Transcription (Transcripción).
- Selecciona la subpestaña Word-Level (Nivel de palabra).
- Establece el proveedor en Local (o Automatic (Automático) para preferir ElevenLabs con WhisperKit como alternativa).
- En la sección WhisperKit model (Modelo WhisperKit), elige un modelo del menú y haz clic en Download Selected Model (Descargar modelo seleccionado).
- Espera a que la barra de progreso se complete; la etiqueta cambiará a Model downloaded (Modelo descargado).
- Vuelve a ejecutar tu comando de agente — la comprobación de preparación pasará.
Instruir al agente
No escribes código. Escribes una frase. El agente llama a las herramientas CLI y MCP de ScreenKite en tu nombre.
Claude Code
# Inicia una sesión interactiva en tu carpeta de proyecto claude # Luego escribe: Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
# O de una sola vez desde la terminal claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
Codex CLI
codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
# B-roll de una sola vez codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
Gemini CLI
gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
Lo que el agente llama realmente
Bajo el capó, cada sesión comienza con:
# Abrir el proyecto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
--path ~/Desktop/Recording.skbundle --json
# Leer el estado del proyecto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
--name getProjectState --input-json '{"scope":"summary"}' --json
Puedes ejecutar estos comandos tú mismo para inspeccionar el estado en cualquier momento. --json en cada llamada hace que la salida sea legible por máquinas.
Habilidades (Skills)
Las habilidades son paquetes de prompts prediseñados que enseñan al agente el flujo de trabajo completo para que no tengas que describirlo desde cero. Instálalas una vez; refiérelas por nombre en cualquier sesión.
Instalar
npx skills add ScreenKite/awesome-ai-video-editing
Habilidades disponibles
use-screenkite-advanced-b-roll — Pipeline completo: transcribir con ElevenLabs, empaquetar en vista de frases, corregir nombres propios, proponer menú visual con paquetes de densidad, generar composiciones Hyperframes en paralelo, renderizar a MP4, aplicar DSL setSceneLayout con transiciones magicMove.
claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
video-use — Edición centrada en transcripción: transcribir, empaquetar, planificar cortes, confirmar, ejecutar. También gestiona corrección de color, subtítulos y superposiciones de animación mediante FFmpeg cuando se trabaja fuera de ScreenKite.
claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
Invocar una habilidad en Claude Code
Si tienes Claude Code abierto de forma interactiva, escribe el nombre de la habilidad como comando de barra:
/use-screenkite-advanced-b-roll
La habilidad carga sus instrucciones y te pide la ruta de la grabación.
Parte 1 — Cortes basados en transcripción
Lo que hace el agente
- Transcribe la pista de tu micrófono con ElevenLabs Scribe — marcas de tiempo a nivel de palabra, en caché para no volver a subir el mismo archivo
- Empaqueta el JSON sin procesar en una vista de frases legible (las frases se rompen en silencios ≥ 0.5s)
- Corrige cada nombre de producto o nombre propio mediante búsqueda web — el ASR escucha mal los nombres con frecuencia (p. ej. "ScreenKite" transcrito como "Screencast"); los nombres incorrectos se propagan a todos los subtítulos y visuales posteriores
- Propone una lista de cortes con rangos de tiempo exactos y una razón en lenguaje sencillo para cada corte
- Espera tu aprobación antes de tocar la línea de tiempo
Los mismos marcadores de tiempo de palabras generan los subtítulos. Cuando un agente crea subtítulos en ScreenKite, usa el proveedor de transcripción Word-Level (Nivel de palabra) configurado e importa un marcador de subtítulo por palabra hablada en lugar de bloques de oraciones largas. Consulta Word-Level Generated Captions (Subtítulos generados a nivel de palabra) para la configuración en la app.
Prompt de ejemplo
Open ~/Desktop/Recording.skbundle and transcribe + cut. Show me the cut plan first, don't touch the timeline yet. ElevenLabs key is in ~/.config/env/elevenlabs.env
El agente devuelve algo como:
[000.06–000.66] "HelloPro." → false start [002.14–002.56] "Hello." → second false start --- CUT [0 → 2.98s] --- [011.84–012.18] "Uh," → filler CUT [8.72–10.00] [043.60–045.16] "And let's see." → transition CUT [40.48–42.60] Result: 58.8s → 51.2s Apply these 3 cuts?
Responde yes y todos los cortes se aplican en una sola llamada mediante editTimeline(action: "cut", {ranges: [...]}).
Qué se corta
- Falsos comienzos — todo lo que precede a la primera frase real (pruebas de micrófono, saludos repetidos)
- Palabras de relleno — "Eh," "Um," "Como" aisladas con suficiente silencio a ambos lados
- Frases de transición — "Y a ver," "Bueno pues," "En fin" que rellenan entre los puntos de la narrativa
El agente nunca corta a mitad de palabra, rellena cada borde del corte con 100–150ms respecto a los límites de las palabras y prefiere silencios ≥ 400ms como objetivos de corte.
Parte 2 — Generación automática de B-Roll
Tras los cortes, el agente mapea la transcripción a puntos de ritmo y genera un visual animado para cada uno usando Hyperframes (HTML + GSAP → MP4). Cada visual se coloca como un diseño de escena en ScreenKite con una transición magicMove.
Estilos de diseño
Corner PiP — la grabación de pantalla llena el lienzo, el B-Roll aparece como acento en una esquina (40–42% de ancho). Ideal para tutoriales donde el contenido de pantalla es la historia principal.
Centered B-roll — la grabación de pantalla se minimiza a la esquina superior izquierda (~38%), el B-Roll se reproduce centrado (~56% de ancho). Ideal para presentaciones de productos donde el visual debe ser prominente.
# Corner PiP (por defecto) claude "add B-roll with corner layout" # Centrado claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
Lo que hace el agente
- Mapeo de ritmos — mapea las frases de la transcripción cortada a ritmos: nombre del producto, característica clave, flujo de trabajo, CTA
- Elección de densidad — propone Escaso (4), Medio (7) o Denso (10); muestra un menú de slots; espera tu elección
- Generación en paralelo — despacha un subagente por slot simultáneamente; cada uno escribe una composición Hyperframes completa de 1920×1080
- Renders en serie — renderiza cada slot a MP4 en secuencia (los Chrome paralelos corrompen fotogramas)
- Aplicación del DSL — llama a
setSceneLayoutpara cada ventana de tiempo con el diseño elegido
El contrato visual
Cada visual generado sigue estas reglas:
- Contenido a fotograma completo — el MP4 de 1920×1080 es el fotograma PiP; el contenido lo rellena de borde a borde (colocar una tarjeta pequeña dentro de un fotograma mayormente vacío la entierra en una esquina dentro de otra esquina)
- Entrada → pausa → sin salida interna — los visuales animan la entrada (0–1.5s), se asientan en una pausa legible y se detienen.
magicMovegestiona la salida. Las fundas internas producen una doble salida rota. - Tipografía grande — texto de visualización 160–220px, cuerpo 48–72px; al 40–56% de ancho esto sigue siendo legible en pantalla
Paquetes de densidad
| Paquete | Slots | Espaciado | Sensación |
|---|---|---|---|
| Escaso | 4 | ~13s de separación | Limpio, documental |
| Medio | 7 | ~7s de separación | Equilibrado (por defecto) |
| Denso | 10 | ~5s de separación | Energía de explicación |
Prompt de ejemplo
Recording is cut. Add B-roll: - Centered layout (screen top-left, B-roll center) - Medium density - Cute, warm visuals - All text in English
Iterar en un slot
Slot 3 should show a Swift logo instead of the Apple emoji. Re-render slot 3 and re-apply.
El agente regenera solo ese slot y vuelve a aplicar su ventana DSL. Todo lo demás permanece.
Poniéndolo todo junto
# 1. Inicia Claude Code en tu carpeta de proyecto claude # 2. Corte de transcripción "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env" # → revisa la lista de cortes → "yes" # 3. B-roll "Add B-roll — centered layout, medium density, cute English visuals" # → revisa el menú de 7 slots → "Medium, looks good" # → el agente genera en paralelo, renderiza en serie, aplica DSL (~3 min) # 4. Comprobación rápida "Show me slot 4 at 18s" # → desplázate en ScreenKite # 5. Ajustar si es necesario "Slot 4 — change the node diagram to use mint green for all nodes"
Tiempo de trabajo manual: menos de 5 minutos. Tiempo de renderizado: ~2–3 minutos para 7 slots.
Para más flujos de trabajo, prompts de ejemplo y habilidades de la comunidad: github.com/ScreenKite/awesome-ai-video-editing