Open je .skbundle-opname in ScreenKite en geef vervolgens instructies aan je AI-agent (Claude Code, Codex, Gemini CLI of een agent met ScreenKite's MCP-tools). De agent verwerkt twee dingen: de transcriptie knippen en B-Roll met scènelayouts genereren. Jij beoordeelt en keurt goed; hij voert uit.
Community-workflows, prompts en skill-packs: github.com/ScreenKite/awesome-ai-video-editing
Preflight: gereedheid lokaal model
Voordat de agent WhisperKit kan gebruiken voor transcriptie, moeten de modelbestanden op schijf staan. De agent-CLI controleert dit bij het opstarten — als het pad van het geselecteerde model ontbreekt of verouderd is, zie je:
WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
Oplossing:
- Open Settings (Instellingen) → Transcription (Transcriptie).
- Selecteer de subtab Word-Level (Woordniveau).
- Stel de provider in op Local (Lokaal) (of Automatic (Automatisch) om ElevenLabs te prefereren met WhisperKit als fallback).
- Kies in het gedeelte WhisperKit model een model uit het menu en klik op Download Selected Model (Geselecteerd model downloaden).
- Wacht tot de voortgangsbalk voltooid is; het label verandert in Model downloaded (Model gedownload).
- Voer je agentopdracht opnieuw uit — de gereedheidcontrole slaagt.
De agent instrueren
Je schrijft geen code. Je schrijft een zin. De agent roept ScreenKite's CLI- en MCP-tools namens jou aan.
Claude Code
# Start een interactieve sessie in je projectmap claude # Dan typen: Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
# Of in één keer vanuit de terminal claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
Codex CLI
codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
# B-roll in één keer codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
Gemini CLI
gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
Wat de agent daadwerkelijk aanroept
Onder de motorkap begint elke sessie met:
# Project openen
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
--path ~/Desktop/Recording.skbundle --json
# Projectstatus lezen
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
--name getProjectState --input-json '{"scope":"summary"}' --json
Je kunt deze opdrachten zelf uitvoeren om de status op elk moment te inspecteren. --json bij elke aanroep maakt de uitvoer machineleesbaar.
Skills (vaardigheden)
Skills zijn vooraf gebouwde promptbundels die de agent de volledige workflow leren, zodat je het niet van scratch hoeft te beschrijven. Eenmalig installeren; in elke sessie op naam refereren.
Installeren
npx skills add ScreenKite/awesome-ai-video-editing
Beschikbare skills
use-screenkite-advanced-b-roll — Volledige pipeline: transcriberen met ElevenLabs, inpakken naar frasenweergave, eigennamen proeflezen, visueel menu met dichtheidsbundels voorstellen, Hyperframes-composities parallel genereren, renderen naar MP4, setSceneLayout DSL met magicMove-overgangen toepassen.
claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
video-use — Transcriptiegericht bewerken: transcriberen, inpakken, sneden plannen, bevestigen, uitvoeren. Verwerkt ook kleurcorrectie, ondertitels en animatie-overlays via FFmpeg bij werk buiten ScreenKite.
claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
Een skill aanroepen in Claude Code
Als je Claude Code interactief open hebt, typ de skillnaam als slash-opdracht:
/use-screenkite-advanced-b-roll
De skill laadt zijn instructies en vraagt om het opnamepad.
Deel 1 — Transcriptiegebaseerde sneden
Wat de agent doet
- Transcribeert je microfoontrack met ElevenLabs Scribe — tijdstempels op woordniveau, gecacht zodat hetzelfde bestand nooit opnieuw geüpload wordt
- Pakt de ruwe JSON in een leesbare frasenweergave (zinnen breken op stiltes ≥ 0.5s)
- Proeflest elke productnaam of eigennaam via webzoekopdracht — ASR hoort namen regelmatig verkeerd (bijv. "ScreenKite" getranscribeerd als "Screencast"); verkeerde namen verspreiden zich naar alle ondertitels en visuals verderop
- Stelt een snijlijst voor met exacte tijdsbereiken en een begrijpelijke reden voor elke snede
- Wacht op jouw goedkeuring voordat de tijdlijn wordt aangepast
Dezelfde woordtijdstempels voeden gegenereerde ondertitels. Wanneer een agent ondertitels aanmaakt in ScreenKite, gebruikt hij de geconfigureerde Word-Level (Woordniveau)-transcriptieprovider en importeert één ondertitelcue per gesproken woord in plaats van lange zinblokken. Zie Word-Level Generated Captions (Woordniveaugegenereerde ondertitels) voor de app-instellingen.
Voorbeeldprompt
Open ~/Desktop/Recording.skbundle and transcribe + cut. Show me the cut plan first, don't touch the timeline yet. ElevenLabs key is in ~/.config/env/elevenlabs.env
De agent geeft zoiets terug:
[000.06–000.66] "HelloPro." → false start [002.14–002.56] "Hello." → second false start --- CUT [0 → 2.98s] --- [011.84–012.18] "Uh," → filler CUT [8.72–10.00] [043.60–045.16] "And let's see." → transition CUT [40.48–42.60] Result: 58.8s → 51.2s Apply these 3 cuts?
Antwoord met yes en alle sneden worden in één aanroep toegepast via editTimeline(action: "cut", {ranges: [...]}).
Wat er gesneden wordt
- Valse starts — alles vóór de echte eerste zin (microfoontest, herhaalde begroetingen)
- Opvulwoorden — geïsoleerde "Eh," "Um," "Dus" met voldoende stilte aan beide kanten
- Overgangszinnen — "En laten we eens kijken," "OK dus," "Hoe dan ook" die invullen tussen verhaalpunten
De agent snijdt nooit midden in een woord, geeft elke snijkant 100–150ms opvulling vanaf woordgrenzen, en prefereert stiltes ≥ 400ms als snijdoelen.
Deel 2 — Automatische B-Roll-generatie
Na de sneden brengt de agent de transcriptie in kaart op beats en genereert voor elk beat een geanimeerde visual met Hyperframes (HTML + GSAP → MP4). Elke visual wordt als scènelayout in ScreenKite geplaatst met een magicMove-overgang.
Layoutstijlen
Corner PiP — de schermopname vult het canvas, B-Roll verschijnt als hoekaccent (40–42% breedte). Ideaal voor tutorials waarbij de scherminhoud het hoofdverhaal is.
Centered B-roll — de schermopname minimaliseert naar linksboven (~38%), B-Roll speelt gecentreerd af (~56% breedte). Ideaal voor productintro's waarbij de visual prominent moet zijn.
# Corner PiP (standaard) claude "add B-roll with corner layout" # Gecentreerd claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
Wat de agent doet
- Beat-mapping — brengt gesneden transcriptiezinnen in kaart op beats: productnaam, kernfunctie, workflow, CTA
- Dichtheidskeuze — stelt Sparse (4), Medium (7) of Dense (10) voor; toont een slotmenu; wacht op jouw keuze
- Parallelle generatie — verstuurt gelijktijdig één sub-agent per slot; elk schrijft een volledige 1920×1080 Hyperframes-compositie
- Serieel renderen — rendert elk slot naar MP4 in volgorde (parallelle Chrome-instanties beschadigen frames)
- DSL-toepassing — roept
setSceneLayoutaan voor elk tijdvenster met jouw gekozen layout
Het visuele contract
Elke gegenereerde visual volgt deze regels:
- Volledig-frame inhoud — de 1920×1080 MP4 is het PiP-frame; inhoud vult het van rand tot rand (een kleine kaart in een grotendeels leeg frame plaatsen, begraaft hem in een hoek van een hoek)
- Ingang → vasthouden → geen interne uitgang — visuals animeren naar binnen (0–1.5s), stabiliseren in een leesbaar vasthoud en stoppen.
magicMoveverwerkt de uitgang. Interne fade-outs produceren een gebroken dubbele uitgang. - Grote typografie — displaytekst 160–220px, hoofdtekst 48–72px; bij 40–56% breedte blijft dit leesbaar op scherm
Dichtheidsbundels
| Bundel | Slots | Afstand | Gevoel |
|---|---|---|---|
| Sparse | 4 | ~13s tussenruimte | Strak, documentair |
| Medium | 7 | ~7s tussenruimte | Gebalanceerd (standaard) |
| Dense | 10 | ~5s tussenruimte | Uitlegenergie |
Voorbeeldprompt
Recording is cut. Add B-roll: - Centered layout (screen top-left, B-roll center) - Medium density - Cute, warm visuals - All text in English
Itereren op één slot
Slot 3 should show a Swift logo instead of the Apple emoji. Re-render slot 3 and re-apply.
De agent genereert alleen dat slot opnieuw en past het DSL-venster opnieuw toe. Al het andere blijft.
Alles samenvoegen
# 1. Start Claude Code in je projectmap claude # 2. Transcriptieknip "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env" # → controleer snijlijst → "yes" # 3. B-Roll "Add B-roll — centered layout, medium density, cute English visuals" # → controleer 7-slot beatmenu → "Medium, looks good" # → agent genereert parallel, rendert serieel, past DSL toe (~3 min) # 4. Steekproef "Show me slot 4 at 18s" # → scrub in ScreenKite # 5. Aanpassen indien nodig "Slot 4 — change the node diagram to use mint green for all nodes"
Totale handmatige tijd: minder dan 5 minuten. Rendertijd: ~2–3 minuten voor 7 slots.
Voor meer workflows, voorbeeldprompts en community-skills: github.com/ScreenKite/awesome-ai-video-editing