Ouvrez votre enregistrement .skbundle dans ScreenKite, puis donnez des instructions à votre agent IA (Claude Code, Codex, Gemini CLI ou tout agent disposant des outils MCP de ScreenKite). L'agent s'occupe de deux choses : couper la transcription et générer des B-Roll avec des mises en scène. Vous révisez et approuvez ; il exécute.

Workflows communautaires, prompts et packs de compétences : github.com/ScreenKite/awesome-ai-video-editing

Vérification préalable : disponibilité du modèle local

Avant que l'agent puisse transcrire avec WhisperKit, les fichiers du modèle doivent exister sur le disque. Le CLI de l'agent vérifie cela au démarrage — si le chemin du modèle sélectionné est manquant ou obsolète, vous verrez :

WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.

Pour résoudre :

Ouvrez Settings (Réglages) → Transcription.
Sélectionnez l'onglet Word-Level (Niveau mot).
Définissez le fournisseur sur Local (ou Automatic (Automatique) pour préférer ElevenLabs avec WhisperKit en secours).
Dans la section WhisperKit model (Modèle WhisperKit), choisissez un modèle dans le menu, puis cliquez sur Download Selected Model (Télécharger le modèle sélectionné).
Attendez que la barre de progression se termine ; l'étiquette devient Model downloaded (Modèle téléchargé).
Relancez votre commande d'agent — la vérification de disponibilité passera.

Donner des instructions à l'agent

Vous n'écrivez pas de code. Vous écrivez une phrase. L'agent appelle les outils CLI et MCP de ScreenKite en votre nom.

Claude Code

# Démarrez une session interactive dans votre dossier de projet
claude

# Puis tapez :
Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.

# Ou en une seule fois depuis le terminal
claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"

Codex CLI

codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"

# B-roll en une seule fois
codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"

Gemini CLI

gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."

Ce que l'agent appelle réellement

Sous le capot, chaque session commence par :

# Ouvrir le projet
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
  --path ~/Desktop/Recording.skbundle --json

# Lire l'état du projet
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
  --name getProjectState --input-json '{"scope":"summary"}' --json

Vous pouvez exécuter ces commandes vous-même pour inspecter l'état à tout moment. --json sur chaque appel rend la sortie lisible par machine.

Compétences (Skills)

Les compétences sont des packs de prompts préconstruits qui enseignent à l'agent le workflow complet afin que vous n'ayez pas à le décrire de zéro. Installez-les une fois ; référencez-les par nom dans n'importe quelle session.

Installer

npx skills add ScreenKite/awesome-ai-video-editing

Compétences disponibles

use-screenkite-advanced-b-roll — Pipeline complet : transcrire avec ElevenLabs, compresser en vue de phrases, corriger les noms propres, proposer un menu visuel avec des packs de densité, générer des compositions Hyperframes en parallèle, rendre en MP4, appliquer le DSL setSceneLayout avec des transitions magicMove.

claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."

video-use — Montage axé sur la transcription : transcrire, compresser, planifier les coupes, confirmer, exécuter. Gère également l'étalonnage des couleurs, les sous-titres et les incrustations d'animation via FFmpeg lors du travail en dehors de ScreenKite.

claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."

Invoquer une compétence dans Claude Code

Si vous avez Claude Code ouvert de manière interactive, tapez le nom de la compétence comme commande slash :

/use-screenkite-advanced-b-roll

La compétence charge ses instructions et vous demande le chemin de l'enregistrement.

Partie 1 — Coupes basées sur la transcription

Ce que fait l'agent

Transcrit votre piste microphone avec ElevenLabs Scribe — horodatages au niveau des mots, mis en cache pour ne jamais ré-uploader le même fichier
Compresse le JSON brut en une vue de phrases lisible (les phrases se coupent sur des silences ≥ 0.5s)
Relit chaque nom de produit ou nom propre via une recherche web — l'ASR entend mal les noms régulièrement (ex. "ScreenKite" transcrit en "Screencast") ; les noms incorrects se propagent dans tous les sous-titres et visuels en aval
Propose une liste de coupes avec des plages horaires exactes et une raison en langage simple pour chaque coupe
Attend votre approbation avant de toucher à la timeline

Les mêmes horodatages de mots alimentent les sous-titres générés. Lorsqu'un agent crée des sous-titres dans ScreenKite, il utilise le fournisseur de transcription Word-Level (Niveau mot) configuré et importe un repère de sous-titre par mot parlé au lieu de longs blocs de phrases. Consultez Word-Level Generated Captions (Sous-titres générés au niveau mot) pour la configuration côté application.

Prompt d'exemple

Open ~/Desktop/Recording.skbundle and transcribe + cut.
Show me the cut plan first, don't touch the timeline yet.
ElevenLabs key is in ~/.config/env/elevenlabs.env

L'agent retourne quelque chose comme :

[000.06–000.66]  "HelloPro."          → false start
[002.14–002.56]  "Hello."             → second false start
--- CUT [0 → 2.98s] ---
[011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
[043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]

Result: 58.8s → 51.2s
Apply these 3 cuts?

Répondez yes et toutes les coupes s'appliquent en un seul appel via editTimeline(action: "cut", {ranges: [...]}).

Ce qui est coupé

Faux départs — tout ce qui précède la vraie première phrase (tests micro, salutations répétées)
Mots de remplissage — "Euh," "Hum," "Genre" isolés avec suffisamment de silence des deux côtés
Phrases de transition — "Et voyons," "Ok donc," "Bref" qui comblent les transitions entre les points narratifs

L'agent ne coupe jamais au milieu d'un mot, rembourre chaque bord de coupe de 100–150ms par rapport aux limites des mots, et préfère les silences ≥ 400ms comme cibles de coupe.

Partie 2 — Génération automatique de B-Roll

Après les coupes, l'agent mappe la transcription sur des temps forts et génère un visuel animé pour chacun en utilisant Hyperframes (HTML + GSAP → MP4). Chaque visuel est placé comme mise en scène dans ScreenKite avec une transition magicMove.

Styles de mise en page

Corner PiP — l'enregistrement d'écran remplit le canevas, le B-Roll apparaît comme accent dans un coin (40–42% de largeur). Idéal pour les tutoriels où le contenu d'écran est l'histoire principale.

Centered B-roll — l'enregistrement d'écran se réduit en haut à gauche (~38%), le B-Roll se lit au centre (~56% de largeur). Idéal pour les présentations de produits où le visuel doit être mis en avant.

# Corner PiP (par défaut)
claude "add B-roll with corner layout"

# Centré
claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"

Ce que fait l'agent

Cartographie des temps forts — mappe les phrases de la transcription coupée sur des temps forts : nom du produit, fonctionnalité clé, workflow, CTA
Choix de densité — propose Clairsemé (4), Moyen (7) ou Dense (10) ; affiche un menu de slots ; attend votre choix
Génération en parallèle — envoie un sous-agent par slot simultanément ; chacun écrit une composition Hyperframes complète en 1920×1080
Rendus en série — rend chaque slot en MP4 en séquence (les Chrome parallèles corrompent les images)
Application du DSL — appelle setSceneLayout pour chaque fenêtre temporelle avec la mise en page choisie

Le contrat visuel

Chaque visuel généré suit ces règles :

Contenu plein cadre — le MP4 1920×1080 est le cadre PiP ; le contenu le remplit bord à bord (placer une petite carte dans un cadre majoritairement vide l'enterre dans un coin d'un coin)
Entrée → maintien → pas de sortie interne — les visuels s'animent à l'entrée (0–1.5s), se stabilisent dans un maintien lisible, puis s'arrêtent. magicMove gère la sortie. Les fondus internes produisent une double sortie cassée.
Grande typographie — texte d'affichage 160–220px, corps 48–72px ; à 40–56% de largeur cela reste lisible à l'écran

Packs de densité

Pack	Slots	Espacement	Ambiance
Clairsemé	4	~13s d'intervalle	Propre, documentaire
Moyen	7	~7s d'intervalle	Équilibré (par défaut)
Dense	10	~5s d'intervalle	Énergie explicative

Prompt d'exemple

Recording is cut. Add B-roll:
- Centered layout (screen top-left, B-roll center)
- Medium density
- Cute, warm visuals
- All text in English

Itérer sur un slot

Slot 3 should show a Swift logo instead of the Apple emoji.
Re-render slot 3 and re-apply.

L'agent régénère uniquement ce slot et réapplique sa fenêtre DSL. Tout le reste reste en place.

Tout assembler

# 1. Démarrez Claude Code dans votre dossier de projet
claude

# 2. Coupe de transcription
"Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
# → révisez la liste de coupes → "yes"

# 3. B-roll
"Add B-roll — centered layout, medium density, cute English visuals"
# → révisez le menu de 7 slots → "Medium, looks good"
# → l'agent génère en parallèle, rend en série, applique le DSL (~3 min)

# 4. Vérification rapide
"Show me slot 4 at 18s"
# → faites défiler dans ScreenKite

# 5. Ajuster si nécessaire
"Slot 4 — change the node diagram to use mint green for all nodes"

Temps de manipulation manuel : moins de 5 minutes. Temps de rendu : ~2–3 minutes pour 7 slots.

Pour plus de workflows, prompts d'exemple et compétences communautaires : github.com/ScreenKite/awesome-ai-video-editing

Workflows communautaires, prompts et packs de compétences : github.com/ScreenKite/awesome-ai-video-editing

Vérification préalable : disponibilité du modèle local

WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.

Pour résoudre :

Ouvrez Settings (Réglages) → Transcription.
Sélectionnez l'onglet Word-Level (Niveau mot).
Définissez le fournisseur sur Local (ou Automatic (Automatique) pour préférer ElevenLabs avec WhisperKit en secours).
Dans la section WhisperKit model (Modèle WhisperKit), choisissez un modèle dans le menu, puis cliquez sur Download Selected Model (Télécharger le modèle sélectionné).
Attendez que la barre de progression se termine ; l'étiquette devient Model downloaded (Modèle téléchargé).
Relancez votre commande d'agent — la vérification de disponibilité passera.

Donner des instructions à l'agent

Vous n'écrivez pas de code. Vous écrivez une phrase. L'agent appelle les outils CLI et MCP de ScreenKite en votre nom.

Claude Code

# Démarrez une session interactive dans votre dossier de projet
claude

# Puis tapez :
Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.

# Ou en une seule fois depuis le terminal
claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"

Codex CLI

codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"

# B-roll en une seule fois
codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"

Gemini CLI

gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."

Ce que l'agent appelle réellement

Sous le capot, chaque session commence par :

# Ouvrir le projet
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
  --path ~/Desktop/Recording.skbundle --json

# Lire l'état du projet
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
  --name getProjectState --input-json '{"scope":"summary"}' --json

Vous pouvez exécuter ces commandes vous-même pour inspecter l'état à tout moment. --json sur chaque appel rend la sortie lisible par machine.

Compétences (Skills)

Installer

npx skills add ScreenKite/awesome-ai-video-editing

Compétences disponibles

claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."

claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."

Invoquer une compétence dans Claude Code

Si vous avez Claude Code ouvert de manière interactive, tapez le nom de la compétence comme commande slash :

/use-screenkite-advanced-b-roll

La compétence charge ses instructions et vous demande le chemin de l'enregistrement.

Partie 1 — Coupes basées sur la transcription

Ce que fait l'agent

Transcrit votre piste microphone avec ElevenLabs Scribe — horodatages au niveau des mots, mis en cache pour ne jamais ré-uploader le même fichier
Compresse le JSON brut en une vue de phrases lisible (les phrases se coupent sur des silences ≥ 0.5s)
Relit chaque nom de produit ou nom propre via une recherche web — l'ASR entend mal les noms régulièrement (ex. "ScreenKite" transcrit en "Screencast") ; les noms incorrects se propagent dans tous les sous-titres et visuels en aval
Propose une liste de coupes avec des plages horaires exactes et une raison en langage simple pour chaque coupe
Attend votre approbation avant de toucher à la timeline

Prompt d'exemple

Open ~/Desktop/Recording.skbundle and transcribe + cut.
Show me the cut plan first, don't touch the timeline yet.
ElevenLabs key is in ~/.config/env/elevenlabs.env

L'agent retourne quelque chose comme :

[000.06–000.66]  "HelloPro."          → false start
[002.14–002.56]  "Hello."             → second false start
--- CUT [0 → 2.98s] ---
[011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
[043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]

Result: 58.8s → 51.2s
Apply these 3 cuts?

Répondez yes et toutes les coupes s'appliquent en un seul appel via editTimeline(action: "cut", {ranges: [...]}).

Ce qui est coupé

Faux départs — tout ce qui précède la vraie première phrase (tests micro, salutations répétées)
Mots de remplissage — "Euh," "Hum," "Genre" isolés avec suffisamment de silence des deux côtés
Phrases de transition — "Et voyons," "Ok donc," "Bref" qui comblent les transitions entre les points narratifs

L'agent ne coupe jamais au milieu d'un mot, rembourre chaque bord de coupe de 100–150ms par rapport aux limites des mots, et préfère les silences ≥ 400ms comme cibles de coupe.

Partie 2 — Génération automatique de B-Roll

Styles de mise en page

# Corner PiP (par défaut)
claude "add B-roll with corner layout"

# Centré
claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"

Ce que fait l'agent

Cartographie des temps forts — mappe les phrases de la transcription coupée sur des temps forts : nom du produit, fonctionnalité clé, workflow, CTA
Choix de densité — propose Clairsemé (4), Moyen (7) ou Dense (10) ; affiche un menu de slots ; attend votre choix
Génération en parallèle — envoie un sous-agent par slot simultanément ; chacun écrit une composition Hyperframes complète en 1920×1080
Rendus en série — rend chaque slot en MP4 en séquence (les Chrome parallèles corrompent les images)
Application du DSL — appelle setSceneLayout pour chaque fenêtre temporelle avec la mise en page choisie

Le contrat visuel

Chaque visuel généré suit ces règles :

Contenu plein cadre — le MP4 1920×1080 est le cadre PiP ; le contenu le remplit bord à bord (placer une petite carte dans un cadre majoritairement vide l'enterre dans un coin d'un coin)
Entrée → maintien → pas de sortie interne — les visuels s'animent à l'entrée (0–1.5s), se stabilisent dans un maintien lisible, puis s'arrêtent. magicMove gère la sortie. Les fondus internes produisent une double sortie cassée.
Grande typographie — texte d'affichage 160–220px, corps 48–72px ; à 40–56% de largeur cela reste lisible à l'écran

Packs de densité

Pack	Slots	Espacement	Ambiance
Clairsemé	4	~13s d'intervalle	Propre, documentaire
Moyen	7	~7s d'intervalle	Équilibré (par défaut)
Dense	10	~5s d'intervalle	Énergie explicative

Prompt d'exemple

Recording is cut. Add B-roll:
- Centered layout (screen top-left, B-roll center)
- Medium density
- Cute, warm visuals
- All text in English

Itérer sur un slot

Slot 3 should show a Swift logo instead of the Apple emoji.
Re-render slot 3 and re-apply.

L'agent régénère uniquement ce slot et réapplique sa fenêtre DSL. Tout le reste reste en place.

Tout assembler

# 1. Démarrez Claude Code dans votre dossier de projet
claude

# 2. Coupe de transcription
"Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
# → révisez la liste de coupes → "yes"

# 3. B-roll
"Add B-roll — centered layout, medium density, cute English visuals"
# → révisez le menu de 7 slots → "Medium, looks good"
# → l'agent génère en parallèle, rend en série, applique le DSL (~3 min)

# 4. Vérification rapide
"Show me slot 4 at 18s"
# → faites défiler dans ScreenKite

# 5. Ajuster si nécessaire
"Slot 4 — change the node diagram to use mint green for all nodes"

Temps de manipulation manuel : moins de 5 minutes. Temps de rendu : ~2–3 minutes pour 7 slots.

Pour plus de workflows, prompts d'exemple et compétences communautaires : github.com/ScreenKite/awesome-ai-video-editing

Agentic Video Editing

Vérification préalable : disponibilité du modèle local

Donner des instructions à l'agent

Claude Code

Codex CLI

Gemini CLI

Ce que l'agent appelle réellement

Compétences (Skills)

Installer

Compétences disponibles

Invoquer une compétence dans Claude Code

Partie 1 — Coupes basées sur la transcription

Ce que fait l'agent

Prompt d'exemple

Ce qui est coupé

Partie 2 — Génération automatique de B-Roll

Styles de mise en page

Ce que fait l'agent

Le contrat visuel

Packs de densité

Prompt d'exemple

Itérer sur un slot

Tout assembler

Agentic Video Editing

Vérification préalable : disponibilité du modèle local

Donner des instructions à l'agent

Claude Code

Codex CLI

Gemini CLI

Ce que l'agent appelle réellement

Compétences (Skills)

Installer

Compétences disponibles

Invoquer une compétence dans Claude Code

Partie 1 — Coupes basées sur la transcription

Ce que fait l'agent

Prompt d'exemple

Ce qui est coupé

Partie 2 — Génération automatique de B-Roll

Styles de mise en page

Ce que fait l'agent

Le contrat visuel

Packs de densité

Prompt d'exemple

Itérer sur un slot

Tout assembler