ScreenKiteScreenKite|Guide
    • Installer ScreenKite
    • Configuration requise
    • Configurer les autorisations
    • Nouvel enregistrement
    • Enregistrer l'ecran complet
    • Enregistrer une fenetre
    • Enregistrer une zone
    • Webcam et microphone
    • Audio systeme
    • Enregistrer des appareils iOS
    • Raccourcis clavier
    • Partager des captures d'ecran
    • Zoom automatique
    • Configurer les reglages de zoom
    • Presentation de l'editeur de projet
    • Timeline et pistes
    • Raccourcir et scinder
    • Personnalisation de l'apparence
    • Cadres d'appareils
    • Agentic Video Editing
    • Sous-titres générés au niveau mot
    • Qualité de l'Aperçu
    • Assistant Chat IA
    • Paramètres de l'éditeur
    • Reglages d'exportation
    • Exporter vers Final Cut Pro (FCPXML)
    • Problemes courants
    • Autorisations et acces
    ← Page d'accueil ScreenKite
    Guide/Montage

    Agentic Video Editing

    Ouvrez votre enregistrement .skbundle dans ScreenKite, puis donnez des instructions à votre agent IA (Claude Code, Codex, Gemini CLI ou tout agent disposant des outils MCP de ScreenKite). L'agent s'occupe de deux choses : couper la transcription et générer des B-Roll avec des mises en scène. Vous révisez et approuvez ; il exécute.

    Workflows communautaires, prompts et packs de compétences : github.com/ScreenKite/awesome-ai-video-editing


    Vérification préalable : disponibilité du modèle local

    Avant que l'agent puisse transcrire avec WhisperKit, les fichiers du modèle doivent exister sur le disque. Le CLI de l'agent vérifie cela au démarrage — si le chemin du modèle sélectionné est manquant ou obsolète, vous verrez :

    WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
    

    Pour résoudre :

    1. Ouvrez Settings (Réglages) → Transcription.
    2. Sélectionnez l'onglet Word-Level (Niveau mot).
    3. Définissez le fournisseur sur Local (ou Automatic (Automatique) pour préférer ElevenLabs avec WhisperKit en secours).
    4. Dans la section WhisperKit model (Modèle WhisperKit), choisissez un modèle dans le menu, puis cliquez sur Download Selected Model (Télécharger le modèle sélectionné).
    5. Attendez que la barre de progression se termine ; l'étiquette devient Model downloaded (Modèle téléchargé).
    6. Relancez votre commande d'agent — la vérification de disponibilité passera.
    ✅

    Les chemins relatifs dans les commandes de l'agent sont automatiquement résolus par rapport au répertoire de travail courant du shell avant d'être transmis à l'application. Vous pouvez passer ./Recording.skbundle ou simplement le nom du fichier si vous êtes déjà dans le bon dossier.


    Donner des instructions à l'agent

    Vous n'écrivez pas de code. Vous écrivez une phrase. L'agent appelle les outils CLI et MCP de ScreenKite en votre nom.

    💡

    Vous préférez travailler entièrement dans l'éditeur ? Le panneau intégré AI Chat (Chat IA) a accès aux mêmes outils MCP que les agents externes — sans terminal. Consultez AI Chat Assistant (Assistant Chat IA) pour la configuration et l'utilisation.

    Claude Code

    # Démarrez une session interactive dans votre dossier de projet
    claude
    
    # Puis tapez :
    Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
    
    # Ou en une seule fois depuis le terminal
    claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
    

    Codex CLI

    codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
    
    # B-roll en une seule fois
    codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
    

    Gemini CLI

    gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
    

    Ce que l'agent appelle réellement

    Sous le capot, chaque session commence par :

    # Ouvrir le projet
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
      --path ~/Desktop/Recording.skbundle --json
    
    # Lire l'état du projet
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
      --name getProjectState --input-json '{"scope":"summary"}' --json
    

    Vous pouvez exécuter ces commandes vous-même pour inspecter l'état à tout moment. --json sur chaque appel rend la sortie lisible par machine.


    Compétences (Skills)

    Les compétences sont des packs de prompts préconstruits qui enseignent à l'agent le workflow complet afin que vous n'ayez pas à le décrire de zéro. Installez-les une fois ; référencez-les par nom dans n'importe quelle session.

    Installer

    npx skills add ScreenKite/awesome-ai-video-editing
    

    Compétences disponibles

    use-screenkite-advanced-b-roll — Pipeline complet : transcrire avec ElevenLabs, compresser en vue de phrases, corriger les noms propres, proposer un menu visuel avec des packs de densité, générer des compositions Hyperframes en parallèle, rendre en MP4, appliquer le DSL setSceneLayout avec des transitions magicMove.

    claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
    

    video-use — Montage axé sur la transcription : transcrire, compresser, planifier les coupes, confirmer, exécuter. Gère également l'étalonnage des couleurs, les sous-titres et les incrustations d'animation via FFmpeg lors du travail en dehors de ScreenKite.

    claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
    

    Invoquer une compétence dans Claude Code

    Si vous avez Claude Code ouvert de manière interactive, tapez le nom de la compétence comme commande slash :

    /use-screenkite-advanced-b-roll
    

    La compétence charge ses instructions et vous demande le chemin de l'enregistrement.


    Partie 1 — Coupes basées sur la transcription

    Ce que fait l'agent

    1. Transcrit votre piste microphone avec ElevenLabs Scribe — horodatages au niveau des mots, mis en cache pour ne jamais ré-uploader le même fichier
    2. Compresse le JSON brut en une vue de phrases lisible (les phrases se coupent sur des silences ≥ 0.5s)
    3. Relit chaque nom de produit ou nom propre via une recherche web — l'ASR entend mal les noms régulièrement (ex. "ScreenKite" transcrit en "Screencast") ; les noms incorrects se propagent dans tous les sous-titres et visuels en aval
    4. Propose une liste de coupes avec des plages horaires exactes et une raison en langage simple pour chaque coupe
    5. Attend votre approbation avant de toucher à la timeline

    Les mêmes horodatages de mots alimentent les sous-titres générés. Lorsqu'un agent crée des sous-titres dans ScreenKite, il utilise le fournisseur de transcription Word-Level (Niveau mot) configuré et importe un repère de sous-titre par mot parlé au lieu de longs blocs de phrases. Consultez Word-Level Generated Captions (Sous-titres générés au niveau mot) pour la configuration côté application.

    ⚠️

    Les coupes de la timeline ne peuvent pas être annulées via le CLI. L'agent affiche toujours la liste complète des coupes et attend votre confirmation. Révisez-la — en particulier les première et dernière limites.

    Prompt d'exemple

    Open ~/Desktop/Recording.skbundle and transcribe + cut.
    Show me the cut plan first, don't touch the timeline yet.
    ElevenLabs key is in ~/.config/env/elevenlabs.env
    

    L'agent retourne quelque chose comme :

    [000.06–000.66]  "HelloPro."          → false start
    [002.14–002.56]  "Hello."             → second false start
    --- CUT [0 → 2.98s] ---
    [011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
    [043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]
    
    Result: 58.8s → 51.2s
    Apply these 3 cuts?
    

    Répondez yes et toutes les coupes s'appliquent en un seul appel via editTimeline(action: "cut", {ranges: [...]}).

    Ce qui est coupé

    • Faux départs — tout ce qui précède la vraie première phrase (tests micro, salutations répétées)
    • Mots de remplissage — "Euh," "Hum," "Genre" isolés avec suffisamment de silence des deux côtés
    • Phrases de transition — "Et voyons," "Ok donc," "Bref" qui comblent les transitions entre les points narratifs

    L'agent ne coupe jamais au milieu d'un mot, rembourre chaque bord de coupe de 100–150ms par rapport aux limites des mots, et préfère les silences ≥ 400ms comme cibles de coupe.


    Partie 2 — Génération automatique de B-Roll

    Après les coupes, l'agent mappe la transcription sur des temps forts et génère un visuel animé pour chacun en utilisant Hyperframes (HTML + GSAP → MP4). Chaque visuel est placé comme mise en scène dans ScreenKite avec une transition magicMove.

    Styles de mise en page

    Corner PiP — l'enregistrement d'écran remplit le canevas, le B-Roll apparaît comme accent dans un coin (40–42% de largeur). Idéal pour les tutoriels où le contenu d'écran est l'histoire principale.

    Centered B-roll — l'enregistrement d'écran se réduit en haut à gauche (~38%), le B-Roll se lit au centre (~56% de largeur). Idéal pour les présentations de produits où le visuel doit être mis en avant.

    # Corner PiP (par défaut)
    claude "add B-roll with corner layout"
    
    # Centré
    claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
    

    Ce que fait l'agent

    1. Cartographie des temps forts — mappe les phrases de la transcription coupée sur des temps forts : nom du produit, fonctionnalité clé, workflow, CTA
    2. Choix de densité — propose Clairsemé (4), Moyen (7) ou Dense (10) ; affiche un menu de slots ; attend votre choix
    3. Génération en parallèle — envoie un sous-agent par slot simultanément ; chacun écrit une composition Hyperframes complète en 1920×1080
    4. Rendus en série — rend chaque slot en MP4 en séquence (les Chrome parallèles corrompent les images)
    5. Application du DSL — appelle setSceneLayout pour chaque fenêtre temporelle avec la mise en page choisie

    Le contrat visuel

    Chaque visuel généré suit ces règles :

    • Contenu plein cadre — le MP4 1920×1080 est le cadre PiP ; le contenu le remplit bord à bord (placer une petite carte dans un cadre majoritairement vide l'enterre dans un coin d'un coin)
    • Entrée → maintien → pas de sortie interne — les visuels s'animent à l'entrée (0–1.5s), se stabilisent dans un maintien lisible, puis s'arrêtent. magicMove gère la sortie. Les fondus internes produisent une double sortie cassée.
    • Grande typographie — texte d'affichage 160–220px, corps 48–72px ; à 40–56% de largeur cela reste lisible à l'écran

    Packs de densité

    PackSlotsEspacementAmbiance
    Clairsemé4~13s d'intervallePropre, documentaire
    Moyen7~7s d'intervalleÉquilibré (par défaut)
    Dense10~5s d'intervalleÉnergie explicative

    Prompt d'exemple

    Recording is cut. Add B-roll:
    - Centered layout (screen top-left, B-roll center)
    - Medium density
    - Cute, warm visuals
    - All text in English
    

    Itérer sur un slot

    Slot 3 should show a Swift logo instead of the Apple emoji.
    Re-render slot 3 and re-apply.
    

    L'agent régénère uniquement ce slot et réapplique sa fenêtre DSL. Tout le reste reste en place.

    ⚠️

    Lors de la réapplication d'une fenêtre de mise en page sur une précédente plus longue, des segments résiduels en "queue" peuvent continuer à se lire. L'agent les efface automatiquement. Si vous appliquez setSceneLayout manuellement et constatez que le B-Roll continue trop longtemps, appelez setSceneLayout avec mode: "pictureInPicture" sur la plage de queue pour l'effacer.


    Tout assembler

    # 1. Démarrez Claude Code dans votre dossier de projet
    claude
    
    # 2. Coupe de transcription
    "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
    # → révisez la liste de coupes → "yes"
    
    # 3. B-roll
    "Add B-roll — centered layout, medium density, cute English visuals"
    # → révisez le menu de 7 slots → "Medium, looks good"
    # → l'agent génère en parallèle, rend en série, applique le DSL (~3 min)
    
    # 4. Vérification rapide
    "Show me slot 4 at 18s"
    # → faites défiler dans ScreenKite
    
    # 5. Ajuster si nécessaire
    "Slot 4 — change the node diagram to use mint green for all nodes"
    

    Temps de manipulation manuel : moins de 5 minutes. Temps de rendu : ~2–3 minutes pour 7 slots.

    Pour plus de workflows, prompts d'exemple et compétences communautaires : github.com/ScreenKite/awesome-ai-video-editing

    Precedent

    ← Cadres d'appareils

    Suivant

    Sous-titres générés au niveau mot→