Abre tu grabación .skbundle en ScreenKite y luego dale instrucciones a tu agente de IA (Claude Code, Codex, Gemini CLI o cualquier agente con las herramientas MCP de ScreenKite). El agente hace dos cosas: cortar la transcripción y generar B-Roll con diseños de escena. Tú revisas y apruebas; él ejecuta.

Flujos de trabajo de la comunidad, prompts y paquetes de habilidades: github.com/ScreenKite/awesome-ai-video-editing

Preflight: Estado de preparación del modelo local

Antes de que el agente pueda transcribir usando WhisperKit, los archivos del modelo deben existir en disco. El CLI del agente comprueba esto al iniciarse — si la ruta del modelo seleccionado falta o es obsoleta, verás:

WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.

Para resolver:

Abre Settings (Ajustes) → Transcription (Transcripción).
Selecciona la subpestaña Word-Level (Nivel de palabra).
Establece el proveedor en Local (o Automatic (Automático) para preferir ElevenLabs con WhisperKit como alternativa).
En la sección WhisperKit model (Modelo WhisperKit), elige un modelo del menú y haz clic en Download Selected Model (Descargar modelo seleccionado).
Espera a que la barra de progreso se complete; la etiqueta cambiará a Model downloaded (Modelo descargado).
Vuelve a ejecutar tu comando de agente — la comprobación de preparación pasará.

Instruir al agente

No escribes código. Escribes una frase. El agente llama a las herramientas CLI y MCP de ScreenKite en tu nombre.

Claude Code

# Inicia una sesión interactiva en tu carpeta de proyecto
claude

# Luego escribe:
Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.

# O de una sola vez desde la terminal
claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"

Codex CLI

codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"

# B-roll de una sola vez
codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"

Gemini CLI

gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."

Lo que el agente llama realmente

Bajo el capó, cada sesión comienza con:

# Abrir el proyecto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
  --path ~/Desktop/Recording.skbundle --json

# Leer el estado del proyecto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
  --name getProjectState --input-json '{"scope":"summary"}' --json

Puedes ejecutar estos comandos tú mismo para inspeccionar el estado en cualquier momento. --json en cada llamada hace que la salida sea legible por máquinas.

Habilidades (Skills)

Las habilidades son paquetes de prompts prediseñados que enseñan al agente el flujo de trabajo completo para que no tengas que describirlo desde cero. Instálalas una vez; refiérelas por nombre en cualquier sesión.

Instalar

npx skills add ScreenKite/awesome-ai-video-editing

Habilidades disponibles

use-screenkite-advanced-b-roll — Pipeline completo: transcribir con ElevenLabs, empaquetar en vista de frases, corregir nombres propios, proponer menú visual con paquetes de densidad, generar composiciones Hyperframes en paralelo, renderizar a MP4, aplicar DSL setSceneLayout con transiciones magicMove.

claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."

video-use — Edición centrada en transcripción: transcribir, empaquetar, planificar cortes, confirmar, ejecutar. También gestiona corrección de color, subtítulos y superposiciones de animación mediante FFmpeg cuando se trabaja fuera de ScreenKite.

claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."

Invocar una habilidad en Claude Code

Si tienes Claude Code abierto de forma interactiva, escribe el nombre de la habilidad como comando de barra:

/use-screenkite-advanced-b-roll

La habilidad carga sus instrucciones y te pide la ruta de la grabación.

Parte 1 — Cortes basados en transcripción

Lo que hace el agente

Transcribe la pista de tu micrófono con ElevenLabs Scribe — marcas de tiempo a nivel de palabra, en caché para no volver a subir el mismo archivo
Empaqueta el JSON sin procesar en una vista de frases legible (las frases se rompen en silencios ≥ 0.5s)
Corrige cada nombre de producto o nombre propio mediante búsqueda web — el ASR escucha mal los nombres con frecuencia (p. ej. "ScreenKite" transcrito como "Screencast"); los nombres incorrectos se propagan a todos los subtítulos y visuales posteriores
Propone una lista de cortes con rangos de tiempo exactos y una razón en lenguaje sencillo para cada corte
Espera tu aprobación antes de tocar la línea de tiempo

Los mismos marcadores de tiempo de palabras generan los subtítulos. Cuando un agente crea subtítulos en ScreenKite, usa el proveedor de transcripción Word-Level (Nivel de palabra) configurado e importa un marcador de subtítulo por palabra hablada en lugar de bloques de oraciones largas. Consulta Word-Level Generated Captions (Subtítulos generados a nivel de palabra) para la configuración en la app.

Prompt de ejemplo

Open ~/Desktop/Recording.skbundle and transcribe + cut.
Show me the cut plan first, don't touch the timeline yet.
ElevenLabs key is in ~/.config/env/elevenlabs.env

El agente devuelve algo como:

[000.06–000.66]  "HelloPro."          → false start
[002.14–002.56]  "Hello."             → second false start
--- CUT [0 → 2.98s] ---
[011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
[043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]

Result: 58.8s → 51.2s
Apply these 3 cuts?

Responde yes y todos los cortes se aplican en una sola llamada mediante editTimeline(action: "cut", {ranges: [...]}).

Qué se corta

Falsos comienzos — todo lo que precede a la primera frase real (pruebas de micrófono, saludos repetidos)
Palabras de relleno — "Eh," "Um," "Como" aisladas con suficiente silencio a ambos lados
Frases de transición — "Y a ver," "Bueno pues," "En fin" que rellenan entre los puntos de la narrativa

El agente nunca corta a mitad de palabra, rellena cada borde del corte con 100–150ms respecto a los límites de las palabras y prefiere silencios ≥ 400ms como objetivos de corte.

Parte 2 — Generación automática de B-Roll

Tras los cortes, el agente mapea la transcripción a puntos de ritmo y genera un visual animado para cada uno usando Hyperframes (HTML + GSAP → MP4). Cada visual se coloca como un diseño de escena en ScreenKite con una transición magicMove.

Estilos de diseño

Corner PiP — la grabación de pantalla llena el lienzo, el B-Roll aparece como acento en una esquina (40–42% de ancho). Ideal para tutoriales donde el contenido de pantalla es la historia principal.

Centered B-roll — la grabación de pantalla se minimiza a la esquina superior izquierda (~38%), el B-Roll se reproduce centrado (~56% de ancho). Ideal para presentaciones de productos donde el visual debe ser prominente.

# Corner PiP (por defecto)
claude "add B-roll with corner layout"

# Centrado
claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"

Lo que hace el agente

Mapeo de ritmos — mapea las frases de la transcripción cortada a ritmos: nombre del producto, característica clave, flujo de trabajo, CTA
Elección de densidad — propone Escaso (4), Medio (7) o Denso (10); muestra un menú de slots; espera tu elección
Generación en paralelo — despacha un subagente por slot simultáneamente; cada uno escribe una composición Hyperframes completa de 1920×1080
Renders en serie — renderiza cada slot a MP4 en secuencia (los Chrome paralelos corrompen fotogramas)
Aplicación del DSL — llama a setSceneLayout para cada ventana de tiempo con el diseño elegido

El contrato visual

Cada visual generado sigue estas reglas:

Contenido a fotograma completo — el MP4 de 1920×1080 es el fotograma PiP; el contenido lo rellena de borde a borde (colocar una tarjeta pequeña dentro de un fotograma mayormente vacío la entierra en una esquina dentro de otra esquina)
Entrada → pausa → sin salida interna — los visuales animan la entrada (0–1.5s), se asientan en una pausa legible y se detienen. magicMove gestiona la salida. Las fundas internas producen una doble salida rota.
Tipografía grande — texto de visualización 160–220px, cuerpo 48–72px; al 40–56% de ancho esto sigue siendo legible en pantalla

Paquetes de densidad

Paquete	Slots	Espaciado	Sensación
Escaso	4	~13s de separación	Limpio, documental
Medio	7	~7s de separación	Equilibrado (por defecto)
Denso	10	~5s de separación	Energía de explicación

Prompt de ejemplo

Recording is cut. Add B-roll:
- Centered layout (screen top-left, B-roll center)
- Medium density
- Cute, warm visuals
- All text in English

Iterar en un slot

Slot 3 should show a Swift logo instead of the Apple emoji.
Re-render slot 3 and re-apply.

El agente regenera solo ese slot y vuelve a aplicar su ventana DSL. Todo lo demás permanece.

Poniéndolo todo junto

# 1. Inicia Claude Code en tu carpeta de proyecto
claude

# 2. Corte de transcripción
"Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
# → revisa la lista de cortes → "yes"

# 3. B-roll
"Add B-roll — centered layout, medium density, cute English visuals"
# → revisa el menú de 7 slots → "Medium, looks good"
# → el agente genera en paralelo, renderiza en serie, aplica DSL (~3 min)

# 4. Comprobación rápida
"Show me slot 4 at 18s"
# → desplázate en ScreenKite

# 5. Ajustar si es necesario
"Slot 4 — change the node diagram to use mint green for all nodes"

Tiempo de trabajo manual: menos de 5 minutos. Tiempo de renderizado: ~2–3 minutos para 7 slots.

Para más flujos de trabajo, prompts de ejemplo y habilidades de la comunidad: github.com/ScreenKite/awesome-ai-video-editing

Flujos de trabajo de la comunidad, prompts y paquetes de habilidades: github.com/ScreenKite/awesome-ai-video-editing

Preflight: Estado de preparación del modelo local

WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.

Para resolver:

Abre Settings (Ajustes) → Transcription (Transcripción).
Selecciona la subpestaña Word-Level (Nivel de palabra).
Establece el proveedor en Local (o Automatic (Automático) para preferir ElevenLabs con WhisperKit como alternativa).
En la sección WhisperKit model (Modelo WhisperKit), elige un modelo del menú y haz clic en Download Selected Model (Descargar modelo seleccionado).
Espera a que la barra de progreso se complete; la etiqueta cambiará a Model downloaded (Modelo descargado).
Vuelve a ejecutar tu comando de agente — la comprobación de preparación pasará.

Instruir al agente

No escribes código. Escribes una frase. El agente llama a las herramientas CLI y MCP de ScreenKite en tu nombre.

Claude Code

# Inicia una sesión interactiva en tu carpeta de proyecto
claude

# Luego escribe:
Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.

# O de una sola vez desde la terminal
claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"

Codex CLI

codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"

# B-roll de una sola vez
codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"

Gemini CLI

gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."

Lo que el agente llama realmente

Bajo el capó, cada sesión comienza con:

# Abrir el proyecto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
  --path ~/Desktop/Recording.skbundle --json

# Leer el estado del proyecto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
  --name getProjectState --input-json '{"scope":"summary"}' --json

Puedes ejecutar estos comandos tú mismo para inspeccionar el estado en cualquier momento. --json en cada llamada hace que la salida sea legible por máquinas.

Habilidades (Skills)

Instalar

npx skills add ScreenKite/awesome-ai-video-editing

Habilidades disponibles

claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."

claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."

Invocar una habilidad en Claude Code

Si tienes Claude Code abierto de forma interactiva, escribe el nombre de la habilidad como comando de barra:

/use-screenkite-advanced-b-roll

La habilidad carga sus instrucciones y te pide la ruta de la grabación.

Parte 1 — Cortes basados en transcripción

Lo que hace el agente

Transcribe la pista de tu micrófono con ElevenLabs Scribe — marcas de tiempo a nivel de palabra, en caché para no volver a subir el mismo archivo
Empaqueta el JSON sin procesar en una vista de frases legible (las frases se rompen en silencios ≥ 0.5s)
Corrige cada nombre de producto o nombre propio mediante búsqueda web — el ASR escucha mal los nombres con frecuencia (p. ej. "ScreenKite" transcrito como "Screencast"); los nombres incorrectos se propagan a todos los subtítulos y visuales posteriores
Propone una lista de cortes con rangos de tiempo exactos y una razón en lenguaje sencillo para cada corte
Espera tu aprobación antes de tocar la línea de tiempo

Prompt de ejemplo

Open ~/Desktop/Recording.skbundle and transcribe + cut.
Show me the cut plan first, don't touch the timeline yet.
ElevenLabs key is in ~/.config/env/elevenlabs.env

El agente devuelve algo como:

[000.06–000.66]  "HelloPro."          → false start
[002.14–002.56]  "Hello."             → second false start
--- CUT [0 → 2.98s] ---
[011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
[043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]

Result: 58.8s → 51.2s
Apply these 3 cuts?

Responde yes y todos los cortes se aplican en una sola llamada mediante editTimeline(action: "cut", {ranges: [...]}).

Qué se corta

Falsos comienzos — todo lo que precede a la primera frase real (pruebas de micrófono, saludos repetidos)
Palabras de relleno — "Eh," "Um," "Como" aisladas con suficiente silencio a ambos lados
Frases de transición — "Y a ver," "Bueno pues," "En fin" que rellenan entre los puntos de la narrativa

El agente nunca corta a mitad de palabra, rellena cada borde del corte con 100–150ms respecto a los límites de las palabras y prefiere silencios ≥ 400ms como objetivos de corte.

Parte 2 — Generación automática de B-Roll

Estilos de diseño

# Corner PiP (por defecto)
claude "add B-roll with corner layout"

# Centrado
claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"

Lo que hace el agente

Mapeo de ritmos — mapea las frases de la transcripción cortada a ritmos: nombre del producto, característica clave, flujo de trabajo, CTA
Elección de densidad — propone Escaso (4), Medio (7) o Denso (10); muestra un menú de slots; espera tu elección
Generación en paralelo — despacha un subagente por slot simultáneamente; cada uno escribe una composición Hyperframes completa de 1920×1080
Renders en serie — renderiza cada slot a MP4 en secuencia (los Chrome paralelos corrompen fotogramas)
Aplicación del DSL — llama a setSceneLayout para cada ventana de tiempo con el diseño elegido

El contrato visual

Cada visual generado sigue estas reglas:

Contenido a fotograma completo — el MP4 de 1920×1080 es el fotograma PiP; el contenido lo rellena de borde a borde (colocar una tarjeta pequeña dentro de un fotograma mayormente vacío la entierra en una esquina dentro de otra esquina)
Entrada → pausa → sin salida interna — los visuales animan la entrada (0–1.5s), se asientan en una pausa legible y se detienen. magicMove gestiona la salida. Las fundas internas producen una doble salida rota.
Tipografía grande — texto de visualización 160–220px, cuerpo 48–72px; al 40–56% de ancho esto sigue siendo legible en pantalla

Paquetes de densidad

Paquete	Slots	Espaciado	Sensación
Escaso	4	~13s de separación	Limpio, documental
Medio	7	~7s de separación	Equilibrado (por defecto)
Denso	10	~5s de separación	Energía de explicación

Prompt de ejemplo

Recording is cut. Add B-roll:
- Centered layout (screen top-left, B-roll center)
- Medium density
- Cute, warm visuals
- All text in English

Iterar en un slot

Slot 3 should show a Swift logo instead of the Apple emoji.
Re-render slot 3 and re-apply.

El agente regenera solo ese slot y vuelve a aplicar su ventana DSL. Todo lo demás permanece.

Poniéndolo todo junto

# 1. Inicia Claude Code en tu carpeta de proyecto
claude

# 2. Corte de transcripción
"Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
# → revisa la lista de cortes → "yes"

# 3. B-roll
"Add B-roll — centered layout, medium density, cute English visuals"
# → revisa el menú de 7 slots → "Medium, looks good"
# → el agente genera en paralelo, renderiza en serie, aplica DSL (~3 min)

# 4. Comprobación rápida
"Show me slot 4 at 18s"
# → desplázate en ScreenKite

# 5. Ajustar si es necesario
"Slot 4 — change the node diagram to use mint green for all nodes"

Tiempo de trabajo manual: menos de 5 minutos. Tiempo de renderizado: ~2–3 minutos para 7 slots.

Para más flujos de trabajo, prompts de ejemplo y habilidades de la comunidad: github.com/ScreenKite/awesome-ai-video-editing

Agentic Video Editing

Preflight: Estado de preparación del modelo local

Instruir al agente

Claude Code

Codex CLI

Gemini CLI

Lo que el agente llama realmente

Habilidades (Skills)

Instalar

Habilidades disponibles

Invocar una habilidad en Claude Code

Parte 1 — Cortes basados en transcripción

Lo que hace el agente

Prompt de ejemplo

Qué se corta

Parte 2 — Generación automática de B-Roll

Estilos de diseño

Lo que hace el agente

El contrato visual

Paquetes de densidad

Prompt de ejemplo

Iterar en un slot

Poniéndolo todo junto

Agentic Video Editing

Preflight: Estado de preparación del modelo local

Instruir al agente

Claude Code

Codex CLI

Gemini CLI

Lo que el agente llama realmente

Habilidades (Skills)

Instalar

Habilidades disponibles

Invocar una habilidad en Claude Code

Parte 1 — Cortes basados en transcripción

Lo que hace el agente

Prompt de ejemplo

Qué se corta

Parte 2 — Generación automática de B-Roll

Estilos de diseño

Lo que hace el agente

El contrato visual

Paquetes de densidad

Prompt de ejemplo

Iterar en un slot

Poniéndolo todo junto