ScreenKiteScreenKite|Handleiding
    • ScreenKite installeren
    • Systeemvereisten
    • Toestemmingen instellen
    • Nieuwe opname
    • Volledig scherm opnemen
    • Een venster opnemen
    • Een gebied opnemen
    • Webcam en microfoon
    • Systeemaudio
    • iOS-apparaten opnemen
    • Sneltoetsen
    • Screenshots delen
    • Auto Zoom
    • Zoominstellingen configureren
    • Projecteditor-overzicht
    • Timeline & Tracks
    • Inkorten en splitsen
    • Uiterlijk aanpassen
    • Device Frames
    • Agentic Video Editing
    • Woordniveaugegenereerde ondertitels
    • Preview Quality
    • AI Chat-assistent
    • Editor Settings
    • Export Settings
    • Export to Final Cut Pro (FCPXML)
    • Veelvoorkomende problemen
    • Permissions & Access
    ← ScreenKite-homepage
    Handleiding/Bewerken

    Agentic Video Editing

    Open je .skbundle-opname in ScreenKite en geef vervolgens instructies aan je AI-agent (Claude Code, Codex, Gemini CLI of een agent met ScreenKite's MCP-tools). De agent verwerkt twee dingen: de transcriptie knippen en B-Roll met scènelayouts genereren. Jij beoordeelt en keurt goed; hij voert uit.

    Community-workflows, prompts en skill-packs: github.com/ScreenKite/awesome-ai-video-editing


    Preflight: gereedheid lokaal model

    Voordat de agent WhisperKit kan gebruiken voor transcriptie, moeten de modelbestanden op schijf staan. De agent-CLI controleert dit bij het opstarten — als het pad van het geselecteerde model ontbreekt of verouderd is, zie je:

    WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
    

    Oplossing:

    1. Open Settings (Instellingen) → Transcription (Transcriptie).
    2. Selecteer de subtab Word-Level (Woordniveau).
    3. Stel de provider in op Local (Lokaal) (of Automatic (Automatisch) om ElevenLabs te prefereren met WhisperKit als fallback).
    4. Kies in het gedeelte WhisperKit model een model uit het menu en klik op Download Selected Model (Geselecteerd model downloaden).
    5. Wacht tot de voortgangsbalk voltooid is; het label verandert in Model downloaded (Model gedownload).
    6. Voer je agentopdracht opnieuw uit — de gereedheidcontrole slaagt.
    ✅

    Relatieve paden in agentopdrachten worden automatisch omgezet ten opzichte van de huidige werkdirectory van de shell voordat ze naar de app worden doorgestuurd. Je kunt ./Recording.skbundle of alleen de bestandsnaam meegeven als je al in de juiste map bent.


    De agent instrueren

    Je schrijft geen code. Je schrijft een zin. De agent roept ScreenKite's CLI- en MCP-tools namens jou aan.

    💡

    Werk je liever volledig in de editor? Het ingebouwde AI Chat-paneel heeft toegang tot dezelfde MCP-tools als externe agents — geen terminal nodig. Zie AI Chat Assistant voor installatie en gebruik.

    Claude Code

    # Start een interactieve sessie in je projectmap
    claude
    
    # Dan typen:
    Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
    
    # Of in één keer vanuit de terminal
    claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
    

    Codex CLI

    codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
    
    # B-roll in één keer
    codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
    

    Gemini CLI

    gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
    

    Wat de agent daadwerkelijk aanroept

    Onder de motorkap begint elke sessie met:

    # Project openen
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
      --path ~/Desktop/Recording.skbundle --json
    
    # Projectstatus lezen
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
      --name getProjectState --input-json '{"scope":"summary"}' --json
    

    Je kunt deze opdrachten zelf uitvoeren om de status op elk moment te inspecteren. --json bij elke aanroep maakt de uitvoer machineleesbaar.


    Skills (vaardigheden)

    Skills zijn vooraf gebouwde promptbundels die de agent de volledige workflow leren, zodat je het niet van scratch hoeft te beschrijven. Eenmalig installeren; in elke sessie op naam refereren.

    Installeren

    npx skills add ScreenKite/awesome-ai-video-editing
    

    Beschikbare skills

    use-screenkite-advanced-b-roll — Volledige pipeline: transcriberen met ElevenLabs, inpakken naar frasenweergave, eigennamen proeflezen, visueel menu met dichtheidsbundels voorstellen, Hyperframes-composities parallel genereren, renderen naar MP4, setSceneLayout DSL met magicMove-overgangen toepassen.

    claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
    

    video-use — Transcriptiegericht bewerken: transcriberen, inpakken, sneden plannen, bevestigen, uitvoeren. Verwerkt ook kleurcorrectie, ondertitels en animatie-overlays via FFmpeg bij werk buiten ScreenKite.

    claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
    

    Een skill aanroepen in Claude Code

    Als je Claude Code interactief open hebt, typ de skillnaam als slash-opdracht:

    /use-screenkite-advanced-b-roll
    

    De skill laadt zijn instructies en vraagt om het opnamepad.


    Deel 1 — Transcriptiegebaseerde sneden

    Wat de agent doet

    1. Transcribeert je microfoontrack met ElevenLabs Scribe — tijdstempels op woordniveau, gecacht zodat hetzelfde bestand nooit opnieuw geüpload wordt
    2. Pakt de ruwe JSON in een leesbare frasenweergave (zinnen breken op stiltes ≥ 0.5s)
    3. Proeflest elke productnaam of eigennaam via webzoekopdracht — ASR hoort namen regelmatig verkeerd (bijv. "ScreenKite" getranscribeerd als "Screencast"); verkeerde namen verspreiden zich naar alle ondertitels en visuals verderop
    4. Stelt een snijlijst voor met exacte tijdsbereiken en een begrijpelijke reden voor elke snede
    5. Wacht op jouw goedkeuring voordat de tijdlijn wordt aangepast

    Dezelfde woordtijdstempels voeden gegenereerde ondertitels. Wanneer een agent ondertitels aanmaakt in ScreenKite, gebruikt hij de geconfigureerde Word-Level (Woordniveau)-transcriptieprovider en importeert één ondertitelcue per gesproken woord in plaats van lange zinblokken. Zie Word-Level Generated Captions (Woordniveaugegenereerde ondertitels) voor de app-instellingen.

    ⚠️

    Tijdlijnsneden kunnen niet ongedaan worden gemaakt via de CLI. De agent toont altijd de volledige snijlijst en wacht op jouw bevestiging. Controleer hem — met name de eerste en laatste grenzen.

    Voorbeeldprompt

    Open ~/Desktop/Recording.skbundle and transcribe + cut.
    Show me the cut plan first, don't touch the timeline yet.
    ElevenLabs key is in ~/.config/env/elevenlabs.env
    

    De agent geeft zoiets terug:

    [000.06–000.66]  "HelloPro."          → false start
    [002.14–002.56]  "Hello."             → second false start
    --- CUT [0 → 2.98s] ---
    [011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
    [043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]
    
    Result: 58.8s → 51.2s
    Apply these 3 cuts?
    

    Antwoord met yes en alle sneden worden in één aanroep toegepast via editTimeline(action: "cut", {ranges: [...]}).

    Wat er gesneden wordt

    • Valse starts — alles vóór de echte eerste zin (microfoontest, herhaalde begroetingen)
    • Opvulwoorden — geïsoleerde "Eh," "Um," "Dus" met voldoende stilte aan beide kanten
    • Overgangszinnen — "En laten we eens kijken," "OK dus," "Hoe dan ook" die invullen tussen verhaalpunten

    De agent snijdt nooit midden in een woord, geeft elke snijkant 100–150ms opvulling vanaf woordgrenzen, en prefereert stiltes ≥ 400ms als snijdoelen.


    Deel 2 — Automatische B-Roll-generatie

    Na de sneden brengt de agent de transcriptie in kaart op beats en genereert voor elk beat een geanimeerde visual met Hyperframes (HTML + GSAP → MP4). Elke visual wordt als scènelayout in ScreenKite geplaatst met een magicMove-overgang.

    Layoutstijlen

    Corner PiP — de schermopname vult het canvas, B-Roll verschijnt als hoekaccent (40–42% breedte). Ideaal voor tutorials waarbij de scherminhoud het hoofdverhaal is.

    Centered B-roll — de schermopname minimaliseert naar linksboven (~38%), B-Roll speelt gecentreerd af (~56% breedte). Ideaal voor productintro's waarbij de visual prominent moet zijn.

    # Corner PiP (standaard)
    claude "add B-roll with corner layout"
    
    # Gecentreerd
    claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
    

    Wat de agent doet

    1. Beat-mapping — brengt gesneden transcriptiezinnen in kaart op beats: productnaam, kernfunctie, workflow, CTA
    2. Dichtheidskeuze — stelt Sparse (4), Medium (7) of Dense (10) voor; toont een slotmenu; wacht op jouw keuze
    3. Parallelle generatie — verstuurt gelijktijdig één sub-agent per slot; elk schrijft een volledige 1920×1080 Hyperframes-compositie
    4. Serieel renderen — rendert elk slot naar MP4 in volgorde (parallelle Chrome-instanties beschadigen frames)
    5. DSL-toepassing — roept setSceneLayout aan voor elk tijdvenster met jouw gekozen layout

    Het visuele contract

    Elke gegenereerde visual volgt deze regels:

    • Volledig-frame inhoud — de 1920×1080 MP4 is het PiP-frame; inhoud vult het van rand tot rand (een kleine kaart in een grotendeels leeg frame plaatsen, begraaft hem in een hoek van een hoek)
    • Ingang → vasthouden → geen interne uitgang — visuals animeren naar binnen (0–1.5s), stabiliseren in een leesbaar vasthoud en stoppen. magicMove verwerkt de uitgang. Interne fade-outs produceren een gebroken dubbele uitgang.
    • Grote typografie — displaytekst 160–220px, hoofdtekst 48–72px; bij 40–56% breedte blijft dit leesbaar op scherm

    Dichtheidsbundels

    BundelSlotsAfstandGevoel
    Sparse4~13s tussenruimteStrak, documentair
    Medium7~7s tussenruimteGebalanceerd (standaard)
    Dense10~5s tussenruimteUitlegenergie

    Voorbeeldprompt

    Recording is cut. Add B-roll:
    - Centered layout (screen top-left, B-roll center)
    - Medium density
    - Cute, warm visuals
    - All text in English
    

    Itereren op één slot

    Slot 3 should show a Swift logo instead of the Apple emoji.
    Re-render slot 3 and re-apply.
    

    De agent genereert alleen dat slot opnieuw en past het DSL-venster opnieuw toe. Al het andere blijft.

    ⚠️

    Bij het opnieuw toepassen van een layoutvenster over een eerder langer venster, kunnen overblijvende "staart"-segmenten blijven afspelen. De agent wist deze automatisch. Als je setSceneLayout handmatig toepast en B-Roll te lang ziet spelen, roep dan setSceneLayout aan met mode: "pictureInPicture" over het staartbereik om het te wissen.


    Alles samenvoegen

    # 1. Start Claude Code in je projectmap
    claude
    
    # 2. Transcriptieknip
    "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
    # → controleer snijlijst → "yes"
    
    # 3. B-Roll
    "Add B-roll — centered layout, medium density, cute English visuals"
    # → controleer 7-slot beatmenu → "Medium, looks good"
    # → agent genereert parallel, rendert serieel, past DSL toe (~3 min)
    
    # 4. Steekproef
    "Show me slot 4 at 18s"
    # → scrub in ScreenKite
    
    # 5. Aanpassen indien nodig
    "Slot 4 — change the node diagram to use mint green for all nodes"
    

    Totale handmatige tijd: minder dan 5 minuten. Rendertijd: ~2–3 minuten voor 7 slots.

    Voor meer workflows, voorbeeldprompts en community-skills: github.com/ScreenKite/awesome-ai-video-editing

    Vorige

    ← Device Frames

    Volgende

    Woordniveaugegenereerde ondertitels→