Öffne deine .skbundle-Aufnahme in ScreenKite und gib dann deinem KI-Agenten (Claude Code, Codex, Gemini CLI oder einem beliebigen Agenten mit ScreenKites MCP-Tools) Anweisungen. Der Agent erledigt zwei Dinge: die Transkription schneiden und B-Roll mit Szenen-Layouts generieren. Du überprüfst und bestätigst; er führt aus.
Community-Workflows, Prompts und Skill-Packs: github.com/ScreenKite/awesome-ai-video-editing
Vorflug: Bereitschaft des lokalen Modells
Bevor der Agent WhisperKit für die Transkription verwenden kann, müssen die Modelldateien auf dem Datenträger vorhanden sein. Der Agent-CLI prüft dies beim Start — wenn der Pfad des ausgewählten Modells fehlt oder veraltet ist, wird Folgendes angezeigt:
WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
So behebst du das:
- Öffne Settings (Einstellungen) → Transcription (Transkription).
- Wähle den Unter-Tab Word-Level (Wortebene).
- Setze den Anbieter auf Local (Lokal) (oder Automatic (Automatisch), um ElevenLabs zu bevorzugen und WhisperKit als Fallback zu verwenden).
- Wähle im Bereich WhisperKit model (WhisperKit-Modell) ein Modell aus dem Menü aus und klicke auf Download Selected Model (Ausgewähltes Modell herunterladen).
- Warte, bis der Fortschrittsbalken abgeschlossen ist; die Bezeichnung wechselt zu Model downloaded (Modell heruntergeladen).
- Führe deinen Agenten-Befehl erneut aus — die Bereitschaftsprüfung wird bestehen.
Den Agenten anweisen
Du schreibst keinen Code. Du schreibst einen Satz. Der Agent ruft ScreenKites CLI- und MCP-Tools in deinem Namen auf.
Claude Code
# Starte eine interaktive Sitzung in deinem Projektordner claude # Dann eingeben: Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
# Oder einmalig vom Terminal aus claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
Codex CLI
codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
# B-Roll in einem Schritt codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
Gemini CLI
gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
Was der Agent tatsächlich aufruft
Unter der Haube beginnt jede Sitzung mit:
# Projekt öffnen
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
--path ~/Desktop/Recording.skbundle --json
# Projektstatus lesen
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
--name getProjectState --input-json '{"scope":"summary"}' --json
Du kannst diese Befehle jederzeit selbst ausführen, um den Status zu prüfen. --json bei jedem Aufruf macht die Ausgabe maschinenlesbar.
Skills (Fähigkeiten)
Skills sind vorgefertigte Prompt-Pakete, die den Agenten den vollständigen Workflow lehren, damit du ihn nicht von Grund auf neu beschreiben musst. Einmal installieren; in jeder Sitzung nach Namen referenzieren.
Installieren
npx skills add ScreenKite/awesome-ai-video-editing
Verfügbare Skills
use-screenkite-advanced-b-roll — Vollständige Pipeline: Mit ElevenLabs transkribieren, in Phrasenansicht verpacken, Eigennamen korrekturlesen, visuelles Menü mit Dichte-Paketen vorschlagen, Hyperframes-Kompositionen parallel generieren, zu MP4 rendern, setSceneLayout-DSL mit magicMove-Übergängen anwenden.
claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
video-use — Transkriptions-fokussiertes Editing: Transkribieren, verpacken, Schnitte planen, bestätigen, ausführen. Verarbeitet auch Farbkorrektur, Untertitel und Animations-Overlays via FFmpeg bei der Arbeit außerhalb von ScreenKite.
claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
Einen Skill in Claude Code aufrufen
Wenn Claude Code interaktiv geöffnet ist, tippe den Skill-Namen als Slash-Befehl:
/use-screenkite-advanced-b-roll
Der Skill lädt seine Anweisungen und fragt nach dem Aufnahmepfad.
Teil 1 — Transkriptions-basierte Schnitte
Was der Agent tut
- Transkribiert deine Mikrofonspur mit ElevenLabs Scribe — Zeitstempel auf Wortebene, gecacht, sodass dieselbe Datei nie erneut hochgeladen wird
- Verpackt das rohe JSON in eine lesbare Phrasenansicht (Phrasen brechen bei Stille ≥ 0.5s)
- Liest jeden Produktnamen oder Eigennamen per Websuche Korrektur — ASR hört Namen regelmäßig falsch (z.B. "ScreenKite" transkribiert als "Screencast"); falsche Namen verbreiten sich in alle nachgelagerten Untertitel und Grafiken
- Schlägt eine Schnittliste mit genauen Zeitbereichen und einer verständlichen Begründung für jeden Schnitt vor
- Wartet auf deine Bestätigung, bevor die Timeline angetastet wird
Dieselben Wort-Zeitstempel treiben generierte Untertitel an. Wenn ein Agent in ScreenKite Untertitel erstellt, verwendet er den konfigurierten Word-Level (Wortebene)-Transkriptionsanbieter und importiert einen Untertitel-Cue pro gesprochenem Wort statt langer Satzblöcke. Siehe Word-Level Generated Captions (Auf Wortebene generierte Untertitel) für die App-seitige Einrichtung.
Beispiel-Prompt
Open ~/Desktop/Recording.skbundle and transcribe + cut. Show me the cut plan first, don't touch the timeline yet. ElevenLabs key is in ~/.config/env/elevenlabs.env
Der Agent gibt etwas zurück wie:
[000.06–000.66] "HelloPro." → false start [002.14–002.56] "Hello." → second false start --- CUT [0 → 2.98s] --- [011.84–012.18] "Uh," → filler CUT [8.72–10.00] [043.60–045.16] "And let's see." → transition CUT [40.48–42.60] Result: 58.8s → 51.2s Apply these 3 cuts?
Antworte mit yes und alle Schnitte werden in einem einzigen Aufruf über editTimeline(action: "cut", {ranges: [...]}) angewendet.
Was geschnitten wird
- Fehlstarts — alles vor dem echten ersten Satz (Mikrofontests, wiederholte Begrüßungen)
- Füllwörter — isolierte "Äh," "Hmm," "Also" mit ausreichend Stille auf beiden Seiten
- Übergangssätze — "Und schauen wir mal," "OK also," "Jedenfalls" die zwischen Inhaltspunkten auffüllen
Der Agent schneidet nie mitten in einem Wort, polstert jede Schnittkante mit 100–150ms von Wortgrenzen und bevorzugt Stillen ≥ 400ms als Schnittziele.
Teil 2 — Automatische B-Roll-Generierung
Nach den Schnitten mappt der Agent die Transkription auf Beats und generiert mit Hyperframes (HTML + GSAP → MP4) für jeden Beat eine animierte Grafik. Jede Grafik wird als Szenen-Layout in ScreenKite mit einem magicMove-Übergang platziert.
Layout-Stile
Corner PiP — die Bildschirmaufnahme füllt die Leinwand, das B-Roll erscheint als Eck-Akzent (40–42% Breite). Ideal für Tutorials, bei denen der Bildschirminhalt die Haupthandlung ist.
Centered B-roll — die Bildschirmaufnahme wird oben links verkleinert (~38%), das B-Roll spielt zentriert (~56% Breite). Ideal für Produkt-Intros, bei denen das Visuelle im Vordergrund stehen soll.
# Corner PiP (Standard) claude "add B-roll with corner layout" # Zentriert claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
Was der Agent tut
- Beat-Mapping — mappt geschnittene Transkriptions-Phrasen auf Beats: Produktname, Schlüsselfunktion, Workflow, CTA
- Dichte-Wahl — schlägt Sparse (4), Medium (7) oder Dense (10) vor; zeigt ein Slot-Menü; wartet auf deine Wahl
- Parallele Generierung — sendet gleichzeitig einen Sub-Agenten pro Slot; jeder schreibt eine vollständige 1920×1080-Hyperframes-Komposition
- Serielle Renders — rendert jeden Slot sequenziell zu MP4 (parallele Chrome-Instanzen korrumpieren Frames)
- DSL-Anwendung — ruft
setSceneLayoutfür jedes Zeitfenster mit dem gewählten Layout auf
Der visuelle Vertrag
Jede generierte Grafik folgt diesen Regeln:
- Vollbild-Inhalt — das 1920×1080-MP4 ist der PiP-Frame; der Inhalt füllt ihn bis zu den Rändern (eine kleine Karte in einem überwiegend leeren Frame zu platzieren vergräbt sie in einer Ecke einer Ecke)
- Einblendung → Halt → kein interner Ausblend — Grafiken werden eingeblendet (0–1.5s), stabilisieren sich in einem lesbaren Halt und stoppen.
magicMovebehandelt den Ausblend. Interne Ausblendungen erzeugen einen defekten Doppel-Ausblend. - Große Typografie — Display-Text 160–220px, Fließtext 48–72px; bei 40–56% Breite bleibt dies auf dem Bildschirm lesbar
Dichte-Pakete
| Paket | Slots | Abstand | Wirkung |
|---|---|---|---|
| Sparse | 4 | ~13s Abstand | Sauber, dokumentarisch |
| Medium | 7 | ~7s Abstand | Ausgewogen (Standard) |
| Dense | 10 | ~5s Abstand | Erklär-Energie |
Beispiel-Prompt
Recording is cut. Add B-roll: - Centered layout (screen top-left, B-roll center) - Medium density - Cute, warm visuals - All text in English
Einen Slot überarbeiten
Slot 3 should show a Swift logo instead of the Apple emoji. Re-render slot 3 and re-apply.
Der Agent generiert nur diesen Slot neu und wendet sein DSL-Fenster erneut an. Alles andere bleibt.
Alles zusammenfügen
# 1. Claude Code im Projektordner starten claude # 2. Transkriptions-Schnitt "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env" # → Schnittliste überprüfen → "yes" # 3. B-Roll "Add B-roll — centered layout, medium density, cute English visuals" # → 7-Slot-Beat-Menü überprüfen → "Medium, looks good" # → Agent generiert parallel, rendert seriell, wendet DSL an (~3 Min.) # 4. Stichprobe "Show me slot 4 at 18s" # → in ScreenKite scrubben # 5. Bei Bedarf anpassen "Slot 4 — change the node diagram to use mint green for all nodes"
Gesamte Handhabungszeit: unter 5 Minuten. Renderzeit: ~2–3 Minuten für 7 Slots.
Weitere Workflows, Beispiel-Prompts und Community-Skills: github.com/ScreenKite/awesome-ai-video-editing