Ouvrez votre enregistrement .skbundle dans ScreenKite, puis donnez des instructions à votre agent IA (Claude Code, Codex, Gemini CLI ou tout agent disposant des outils MCP de ScreenKite). L'agent s'occupe de deux choses : couper la transcription et générer des B-Roll avec des mises en scène. Vous révisez et approuvez ; il exécute.
Workflows communautaires, prompts et packs de compétences : github.com/ScreenKite/awesome-ai-video-editing
Vérification préalable : disponibilité du modèle local
Avant que l'agent puisse transcrire avec WhisperKit, les fichiers du modèle doivent exister sur le disque. Le CLI de l'agent vérifie cela au démarrage — si le chemin du modèle sélectionné est manquant ou obsolète, vous verrez :
WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
Pour résoudre :
- Ouvrez Settings (Réglages) → Transcription.
- Sélectionnez l'onglet Word-Level (Niveau mot).
- Définissez le fournisseur sur Local (ou Automatic (Automatique) pour préférer ElevenLabs avec WhisperKit en secours).
- Dans la section WhisperKit model (Modèle WhisperKit), choisissez un modèle dans le menu, puis cliquez sur Download Selected Model (Télécharger le modèle sélectionné).
- Attendez que la barre de progression se termine ; l'étiquette devient Model downloaded (Modèle téléchargé).
- Relancez votre commande d'agent — la vérification de disponibilité passera.
Donner des instructions à l'agent
Vous n'écrivez pas de code. Vous écrivez une phrase. L'agent appelle les outils CLI et MCP de ScreenKite en votre nom.
Claude Code
# Démarrez une session interactive dans votre dossier de projet claude # Puis tapez : Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
# Ou en une seule fois depuis le terminal claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
Codex CLI
codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
# B-roll en une seule fois codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
Gemini CLI
gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
Ce que l'agent appelle réellement
Sous le capot, chaque session commence par :
# Ouvrir le projet
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
--path ~/Desktop/Recording.skbundle --json
# Lire l'état du projet
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
--name getProjectState --input-json '{"scope":"summary"}' --json
Vous pouvez exécuter ces commandes vous-même pour inspecter l'état à tout moment. --json sur chaque appel rend la sortie lisible par machine.
Compétences (Skills)
Les compétences sont des packs de prompts préconstruits qui enseignent à l'agent le workflow complet afin que vous n'ayez pas à le décrire de zéro. Installez-les une fois ; référencez-les par nom dans n'importe quelle session.
Installer
npx skills add ScreenKite/awesome-ai-video-editing
Compétences disponibles
use-screenkite-advanced-b-roll — Pipeline complet : transcrire avec ElevenLabs, compresser en vue de phrases, corriger les noms propres, proposer un menu visuel avec des packs de densité, générer des compositions Hyperframes en parallèle, rendre en MP4, appliquer le DSL setSceneLayout avec des transitions magicMove.
claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
video-use — Montage axé sur la transcription : transcrire, compresser, planifier les coupes, confirmer, exécuter. Gère également l'étalonnage des couleurs, les sous-titres et les incrustations d'animation via FFmpeg lors du travail en dehors de ScreenKite.
claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
Invoquer une compétence dans Claude Code
Si vous avez Claude Code ouvert de manière interactive, tapez le nom de la compétence comme commande slash :
/use-screenkite-advanced-b-roll
La compétence charge ses instructions et vous demande le chemin de l'enregistrement.
Partie 1 — Coupes basées sur la transcription
Ce que fait l'agent
- Transcrit votre piste microphone avec ElevenLabs Scribe — horodatages au niveau des mots, mis en cache pour ne jamais ré-uploader le même fichier
- Compresse le JSON brut en une vue de phrases lisible (les phrases se coupent sur des silences ≥ 0.5s)
- Relit chaque nom de produit ou nom propre via une recherche web — l'ASR entend mal les noms régulièrement (ex. "ScreenKite" transcrit en "Screencast") ; les noms incorrects se propagent dans tous les sous-titres et visuels en aval
- Propose une liste de coupes avec des plages horaires exactes et une raison en langage simple pour chaque coupe
- Attend votre approbation avant de toucher à la timeline
Les mêmes horodatages de mots alimentent les sous-titres générés. Lorsqu'un agent crée des sous-titres dans ScreenKite, il utilise le fournisseur de transcription Word-Level (Niveau mot) configuré et importe un repère de sous-titre par mot parlé au lieu de longs blocs de phrases. Consultez Word-Level Generated Captions (Sous-titres générés au niveau mot) pour la configuration côté application.
Prompt d'exemple
Open ~/Desktop/Recording.skbundle and transcribe + cut. Show me the cut plan first, don't touch the timeline yet. ElevenLabs key is in ~/.config/env/elevenlabs.env
L'agent retourne quelque chose comme :
[000.06–000.66] "HelloPro." → false start [002.14–002.56] "Hello." → second false start --- CUT [0 → 2.98s] --- [011.84–012.18] "Uh," → filler CUT [8.72–10.00] [043.60–045.16] "And let's see." → transition CUT [40.48–42.60] Result: 58.8s → 51.2s Apply these 3 cuts?
Répondez yes et toutes les coupes s'appliquent en un seul appel via editTimeline(action: "cut", {ranges: [...]}).
Ce qui est coupé
- Faux départs — tout ce qui précède la vraie première phrase (tests micro, salutations répétées)
- Mots de remplissage — "Euh," "Hum," "Genre" isolés avec suffisamment de silence des deux côtés
- Phrases de transition — "Et voyons," "Ok donc," "Bref" qui comblent les transitions entre les points narratifs
L'agent ne coupe jamais au milieu d'un mot, rembourre chaque bord de coupe de 100–150ms par rapport aux limites des mots, et préfère les silences ≥ 400ms comme cibles de coupe.
Partie 2 — Génération automatique de B-Roll
Après les coupes, l'agent mappe la transcription sur des temps forts et génère un visuel animé pour chacun en utilisant Hyperframes (HTML + GSAP → MP4). Chaque visuel est placé comme mise en scène dans ScreenKite avec une transition magicMove.
Styles de mise en page
Corner PiP — l'enregistrement d'écran remplit le canevas, le B-Roll apparaît comme accent dans un coin (40–42% de largeur). Idéal pour les tutoriels où le contenu d'écran est l'histoire principale.
Centered B-roll — l'enregistrement d'écran se réduit en haut à gauche (~38%), le B-Roll se lit au centre (~56% de largeur). Idéal pour les présentations de produits où le visuel doit être mis en avant.
# Corner PiP (par défaut) claude "add B-roll with corner layout" # Centré claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
Ce que fait l'agent
- Cartographie des temps forts — mappe les phrases de la transcription coupée sur des temps forts : nom du produit, fonctionnalité clé, workflow, CTA
- Choix de densité — propose Clairsemé (4), Moyen (7) ou Dense (10) ; affiche un menu de slots ; attend votre choix
- Génération en parallèle — envoie un sous-agent par slot simultanément ; chacun écrit une composition Hyperframes complète en 1920×1080
- Rendus en série — rend chaque slot en MP4 en séquence (les Chrome parallèles corrompent les images)
- Application du DSL — appelle
setSceneLayoutpour chaque fenêtre temporelle avec la mise en page choisie
Le contrat visuel
Chaque visuel généré suit ces règles :
- Contenu plein cadre — le MP4 1920×1080 est le cadre PiP ; le contenu le remplit bord à bord (placer une petite carte dans un cadre majoritairement vide l'enterre dans un coin d'un coin)
- Entrée → maintien → pas de sortie interne — les visuels s'animent à l'entrée (0–1.5s), se stabilisent dans un maintien lisible, puis s'arrêtent.
magicMovegère la sortie. Les fondus internes produisent une double sortie cassée. - Grande typographie — texte d'affichage 160–220px, corps 48–72px ; à 40–56% de largeur cela reste lisible à l'écran
Packs de densité
| Pack | Slots | Espacement | Ambiance |
|---|---|---|---|
| Clairsemé | 4 | ~13s d'intervalle | Propre, documentaire |
| Moyen | 7 | ~7s d'intervalle | Équilibré (par défaut) |
| Dense | 10 | ~5s d'intervalle | Énergie explicative |
Prompt d'exemple
Recording is cut. Add B-roll: - Centered layout (screen top-left, B-roll center) - Medium density - Cute, warm visuals - All text in English
Itérer sur un slot
Slot 3 should show a Swift logo instead of the Apple emoji. Re-render slot 3 and re-apply.
L'agent régénère uniquement ce slot et réapplique sa fenêtre DSL. Tout le reste reste en place.
Tout assembler
# 1. Démarrez Claude Code dans votre dossier de projet claude # 2. Coupe de transcription "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env" # → révisez la liste de coupes → "yes" # 3. B-roll "Add B-roll — centered layout, medium density, cute English visuals" # → révisez le menu de 7 slots → "Medium, looks good" # → l'agent génère en parallèle, rend en série, applique le DSL (~3 min) # 4. Vérification rapide "Show me slot 4 at 18s" # → faites défiler dans ScreenKite # 5. Ajuster si nécessaire "Slot 4 — change the node diagram to use mint green for all nodes"
Temps de manipulation manuel : moins de 5 minutes. Temps de rendu : ~2–3 minutes pour 7 slots.
Pour plus de workflows, prompts d'exemple et compétences communautaires : github.com/ScreenKite/awesome-ai-video-editing