Öffne deine .skbundle-Aufnahme in ScreenKite und gib dann deinem KI-Agenten (Claude Code, Codex, Gemini CLI oder einem beliebigen Agenten mit ScreenKites MCP-Tools) Anweisungen. Der Agent erledigt zwei Dinge: die Transkription schneiden und B-Roll mit Szenen-Layouts generieren. Du überprüfst und bestätigst; er führt aus.

Community-Workflows, Prompts und Skill-Packs: github.com/ScreenKite/awesome-ai-video-editing

Vorflug: Bereitschaft des lokalen Modells

Bevor der Agent WhisperKit für die Transkription verwenden kann, müssen die Modelldateien auf dem Datenträger vorhanden sein. Der Agent-CLI prüft dies beim Start — wenn der Pfad des ausgewählten Modells fehlt oder veraltet ist, wird Folgendes angezeigt:

WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.

So behebst du das:

Öffne Settings (Einstellungen) → Transcription (Transkription).
Wähle den Unter-Tab Word-Level (Wortebene).
Setze den Anbieter auf Local (Lokal) (oder Automatic (Automatisch), um ElevenLabs zu bevorzugen und WhisperKit als Fallback zu verwenden).
Wähle im Bereich WhisperKit model (WhisperKit-Modell) ein Modell aus dem Menü aus und klicke auf Download Selected Model (Ausgewähltes Modell herunterladen).
Warte, bis der Fortschrittsbalken abgeschlossen ist; die Bezeichnung wechselt zu Model downloaded (Modell heruntergeladen).
Führe deinen Agenten-Befehl erneut aus — die Bereitschaftsprüfung wird bestehen.

Den Agenten anweisen

Du schreibst keinen Code. Du schreibst einen Satz. Der Agent ruft ScreenKites CLI- und MCP-Tools in deinem Namen auf.

Claude Code

# Starte eine interaktive Sitzung in deinem Projektordner
claude

# Dann eingeben:
Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.

# Oder einmalig vom Terminal aus
claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"

Codex CLI

codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"

# B-Roll in einem Schritt
codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"

Gemini CLI

gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."

Was der Agent tatsächlich aufruft

Unter der Haube beginnt jede Sitzung mit:

# Projekt öffnen
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
  --path ~/Desktop/Recording.skbundle --json

# Projektstatus lesen
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
  --name getProjectState --input-json '{"scope":"summary"}' --json

Du kannst diese Befehle jederzeit selbst ausführen, um den Status zu prüfen. --json bei jedem Aufruf macht die Ausgabe maschinenlesbar.

Skills (Fähigkeiten)

Skills sind vorgefertigte Prompt-Pakete, die den Agenten den vollständigen Workflow lehren, damit du ihn nicht von Grund auf neu beschreiben musst. Einmal installieren; in jeder Sitzung nach Namen referenzieren.

Installieren

npx skills add ScreenKite/awesome-ai-video-editing

Verfügbare Skills

use-screenkite-advanced-b-roll — Vollständige Pipeline: Mit ElevenLabs transkribieren, in Phrasenansicht verpacken, Eigennamen korrekturlesen, visuelles Menü mit Dichte-Paketen vorschlagen, Hyperframes-Kompositionen parallel generieren, zu MP4 rendern, setSceneLayout-DSL mit magicMove-Übergängen anwenden.

claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."

video-use — Transkriptions-fokussiertes Editing: Transkribieren, verpacken, Schnitte planen, bestätigen, ausführen. Verarbeitet auch Farbkorrektur, Untertitel und Animations-Overlays via FFmpeg bei der Arbeit außerhalb von ScreenKite.

claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."

Einen Skill in Claude Code aufrufen

Wenn Claude Code interaktiv geöffnet ist, tippe den Skill-Namen als Slash-Befehl:

/use-screenkite-advanced-b-roll

Der Skill lädt seine Anweisungen und fragt nach dem Aufnahmepfad.

Teil 1 — Transkriptions-basierte Schnitte

Was der Agent tut

Transkribiert deine Mikrofonspur mit ElevenLabs Scribe — Zeitstempel auf Wortebene, gecacht, sodass dieselbe Datei nie erneut hochgeladen wird
Verpackt das rohe JSON in eine lesbare Phrasenansicht (Phrasen brechen bei Stille ≥ 0.5s)
Liest jeden Produktnamen oder Eigennamen per Websuche Korrektur — ASR hört Namen regelmäßig falsch (z.B. "ScreenKite" transkribiert als "Screencast"); falsche Namen verbreiten sich in alle nachgelagerten Untertitel und Grafiken
Schlägt eine Schnittliste mit genauen Zeitbereichen und einer verständlichen Begründung für jeden Schnitt vor
Wartet auf deine Bestätigung, bevor die Timeline angetastet wird

Dieselben Wort-Zeitstempel treiben generierte Untertitel an. Wenn ein Agent in ScreenKite Untertitel erstellt, verwendet er den konfigurierten Word-Level (Wortebene)-Transkriptionsanbieter und importiert einen Untertitel-Cue pro gesprochenem Wort statt langer Satzblöcke. Siehe Word-Level Generated Captions (Auf Wortebene generierte Untertitel) für die App-seitige Einrichtung.

Beispiel-Prompt

Open ~/Desktop/Recording.skbundle and transcribe + cut.
Show me the cut plan first, don't touch the timeline yet.
ElevenLabs key is in ~/.config/env/elevenlabs.env

Der Agent gibt etwas zurück wie:

[000.06–000.66]  "HelloPro."          → false start
[002.14–002.56]  "Hello."             → second false start
--- CUT [0 → 2.98s] ---
[011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
[043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]

Result: 58.8s → 51.2s
Apply these 3 cuts?

Antworte mit yes und alle Schnitte werden in einem einzigen Aufruf über editTimeline(action: "cut", {ranges: [...]}) angewendet.

Was geschnitten wird

Fehlstarts — alles vor dem echten ersten Satz (Mikrofontests, wiederholte Begrüßungen)
Füllwörter — isolierte "Äh," "Hmm," "Also" mit ausreichend Stille auf beiden Seiten
Übergangssätze — "Und schauen wir mal," "OK also," "Jedenfalls" die zwischen Inhaltspunkten auffüllen

Der Agent schneidet nie mitten in einem Wort, polstert jede Schnittkante mit 100–150ms von Wortgrenzen und bevorzugt Stillen ≥ 400ms als Schnittziele.

Teil 2 — Automatische B-Roll-Generierung

Nach den Schnitten mappt der Agent die Transkription auf Beats und generiert mit Hyperframes (HTML + GSAP → MP4) für jeden Beat eine animierte Grafik. Jede Grafik wird als Szenen-Layout in ScreenKite mit einem magicMove-Übergang platziert.

Layout-Stile

Corner PiP — die Bildschirmaufnahme füllt die Leinwand, das B-Roll erscheint als Eck-Akzent (40–42% Breite). Ideal für Tutorials, bei denen der Bildschirminhalt die Haupthandlung ist.

Centered B-roll — die Bildschirmaufnahme wird oben links verkleinert (~38%), das B-Roll spielt zentriert (~56% Breite). Ideal für Produkt-Intros, bei denen das Visuelle im Vordergrund stehen soll.

# Corner PiP (Standard)
claude "add B-roll with corner layout"

# Zentriert
claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"

Was der Agent tut

Beat-Mapping — mappt geschnittene Transkriptions-Phrasen auf Beats: Produktname, Schlüsselfunktion, Workflow, CTA
Dichte-Wahl — schlägt Sparse (4), Medium (7) oder Dense (10) vor; zeigt ein Slot-Menü; wartet auf deine Wahl
Parallele Generierung — sendet gleichzeitig einen Sub-Agenten pro Slot; jeder schreibt eine vollständige 1920×1080-Hyperframes-Komposition
Serielle Renders — rendert jeden Slot sequenziell zu MP4 (parallele Chrome-Instanzen korrumpieren Frames)
DSL-Anwendung — ruft setSceneLayout für jedes Zeitfenster mit dem gewählten Layout auf

Der visuelle Vertrag

Jede generierte Grafik folgt diesen Regeln:

Vollbild-Inhalt — das 1920×1080-MP4 ist der PiP-Frame; der Inhalt füllt ihn bis zu den Rändern (eine kleine Karte in einem überwiegend leeren Frame zu platzieren vergräbt sie in einer Ecke einer Ecke)
Einblendung → Halt → kein interner Ausblend — Grafiken werden eingeblendet (0–1.5s), stabilisieren sich in einem lesbaren Halt und stoppen. magicMove behandelt den Ausblend. Interne Ausblendungen erzeugen einen defekten Doppel-Ausblend.
Große Typografie — Display-Text 160–220px, Fließtext 48–72px; bei 40–56% Breite bleibt dies auf dem Bildschirm lesbar

Dichte-Pakete

Paket	Slots	Abstand	Wirkung
Sparse	4	~13s Abstand	Sauber, dokumentarisch
Medium	7	~7s Abstand	Ausgewogen (Standard)
Dense	10	~5s Abstand	Erklär-Energie

Beispiel-Prompt

Recording is cut. Add B-roll:
- Centered layout (screen top-left, B-roll center)
- Medium density
- Cute, warm visuals
- All text in English

Einen Slot überarbeiten

Slot 3 should show a Swift logo instead of the Apple emoji.
Re-render slot 3 and re-apply.

Der Agent generiert nur diesen Slot neu und wendet sein DSL-Fenster erneut an. Alles andere bleibt.

Alles zusammenfügen

# 1. Claude Code im Projektordner starten
claude

# 2. Transkriptions-Schnitt
"Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
# → Schnittliste überprüfen → "yes"

# 3. B-Roll
"Add B-roll — centered layout, medium density, cute English visuals"
# → 7-Slot-Beat-Menü überprüfen → "Medium, looks good"
# → Agent generiert parallel, rendert seriell, wendet DSL an (~3 Min.)

# 4. Stichprobe
"Show me slot 4 at 18s"
# → in ScreenKite scrubben

# 5. Bei Bedarf anpassen
"Slot 4 — change the node diagram to use mint green for all nodes"

Gesamte Handhabungszeit: unter 5 Minuten. Renderzeit: ~2–3 Minuten für 7 Slots.

Weitere Workflows, Beispiel-Prompts und Community-Skills: github.com/ScreenKite/awesome-ai-video-editing

Community-Workflows, Prompts und Skill-Packs: github.com/ScreenKite/awesome-ai-video-editing

Vorflug: Bereitschaft des lokalen Modells

WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.

So behebst du das:

Öffne Settings (Einstellungen) → Transcription (Transkription).
Wähle den Unter-Tab Word-Level (Wortebene).
Setze den Anbieter auf Local (Lokal) (oder Automatic (Automatisch), um ElevenLabs zu bevorzugen und WhisperKit als Fallback zu verwenden).
Wähle im Bereich WhisperKit model (WhisperKit-Modell) ein Modell aus dem Menü aus und klicke auf Download Selected Model (Ausgewähltes Modell herunterladen).
Warte, bis der Fortschrittsbalken abgeschlossen ist; die Bezeichnung wechselt zu Model downloaded (Modell heruntergeladen).
Führe deinen Agenten-Befehl erneut aus — die Bereitschaftsprüfung wird bestehen.

Den Agenten anweisen

Du schreibst keinen Code. Du schreibst einen Satz. Der Agent ruft ScreenKites CLI- und MCP-Tools in deinem Namen auf.

Claude Code

# Starte eine interaktive Sitzung in deinem Projektordner
claude

# Dann eingeben:
Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.

# Oder einmalig vom Terminal aus
claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"

Codex CLI

codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"

# B-Roll in einem Schritt
codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"

Gemini CLI

gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."

Was der Agent tatsächlich aufruft

Unter der Haube beginnt jede Sitzung mit:

# Projekt öffnen
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
  --path ~/Desktop/Recording.skbundle --json

# Projektstatus lesen
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
  --name getProjectState --input-json '{"scope":"summary"}' --json

Du kannst diese Befehle jederzeit selbst ausführen, um den Status zu prüfen. --json bei jedem Aufruf macht die Ausgabe maschinenlesbar.

Skills (Fähigkeiten)

Installieren

npx skills add ScreenKite/awesome-ai-video-editing

Verfügbare Skills

claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."

claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."

Einen Skill in Claude Code aufrufen

Wenn Claude Code interaktiv geöffnet ist, tippe den Skill-Namen als Slash-Befehl:

/use-screenkite-advanced-b-roll

Der Skill lädt seine Anweisungen und fragt nach dem Aufnahmepfad.

Teil 1 — Transkriptions-basierte Schnitte

Was der Agent tut

Transkribiert deine Mikrofonspur mit ElevenLabs Scribe — Zeitstempel auf Wortebene, gecacht, sodass dieselbe Datei nie erneut hochgeladen wird
Verpackt das rohe JSON in eine lesbare Phrasenansicht (Phrasen brechen bei Stille ≥ 0.5s)
Liest jeden Produktnamen oder Eigennamen per Websuche Korrektur — ASR hört Namen regelmäßig falsch (z.B. "ScreenKite" transkribiert als "Screencast"); falsche Namen verbreiten sich in alle nachgelagerten Untertitel und Grafiken
Schlägt eine Schnittliste mit genauen Zeitbereichen und einer verständlichen Begründung für jeden Schnitt vor
Wartet auf deine Bestätigung, bevor die Timeline angetastet wird

Beispiel-Prompt

Open ~/Desktop/Recording.skbundle and transcribe + cut.
Show me the cut plan first, don't touch the timeline yet.
ElevenLabs key is in ~/.config/env/elevenlabs.env

Der Agent gibt etwas zurück wie:

[000.06–000.66]  "HelloPro."          → false start
[002.14–002.56]  "Hello."             → second false start
--- CUT [0 → 2.98s] ---
[011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
[043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]

Result: 58.8s → 51.2s
Apply these 3 cuts?

Antworte mit yes und alle Schnitte werden in einem einzigen Aufruf über editTimeline(action: "cut", {ranges: [...]}) angewendet.

Was geschnitten wird

Fehlstarts — alles vor dem echten ersten Satz (Mikrofontests, wiederholte Begrüßungen)
Füllwörter — isolierte "Äh," "Hmm," "Also" mit ausreichend Stille auf beiden Seiten
Übergangssätze — "Und schauen wir mal," "OK also," "Jedenfalls" die zwischen Inhaltspunkten auffüllen

Der Agent schneidet nie mitten in einem Wort, polstert jede Schnittkante mit 100–150ms von Wortgrenzen und bevorzugt Stillen ≥ 400ms als Schnittziele.

Teil 2 — Automatische B-Roll-Generierung

Layout-Stile

Corner PiP — die Bildschirmaufnahme füllt die Leinwand, das B-Roll erscheint als Eck-Akzent (40–42% Breite). Ideal für Tutorials, bei denen der Bildschirminhalt die Haupthandlung ist.

# Corner PiP (Standard)
claude "add B-roll with corner layout"

# Zentriert
claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"

Was der Agent tut

Beat-Mapping — mappt geschnittene Transkriptions-Phrasen auf Beats: Produktname, Schlüsselfunktion, Workflow, CTA
Dichte-Wahl — schlägt Sparse (4), Medium (7) oder Dense (10) vor; zeigt ein Slot-Menü; wartet auf deine Wahl
Parallele Generierung — sendet gleichzeitig einen Sub-Agenten pro Slot; jeder schreibt eine vollständige 1920×1080-Hyperframes-Komposition
Serielle Renders — rendert jeden Slot sequenziell zu MP4 (parallele Chrome-Instanzen korrumpieren Frames)
DSL-Anwendung — ruft setSceneLayout für jedes Zeitfenster mit dem gewählten Layout auf

Der visuelle Vertrag

Jede generierte Grafik folgt diesen Regeln:

Vollbild-Inhalt — das 1920×1080-MP4 ist der PiP-Frame; der Inhalt füllt ihn bis zu den Rändern (eine kleine Karte in einem überwiegend leeren Frame zu platzieren vergräbt sie in einer Ecke einer Ecke)
Einblendung → Halt → kein interner Ausblend — Grafiken werden eingeblendet (0–1.5s), stabilisieren sich in einem lesbaren Halt und stoppen. magicMove behandelt den Ausblend. Interne Ausblendungen erzeugen einen defekten Doppel-Ausblend.
Große Typografie — Display-Text 160–220px, Fließtext 48–72px; bei 40–56% Breite bleibt dies auf dem Bildschirm lesbar

Dichte-Pakete

Paket	Slots	Abstand	Wirkung
Sparse	4	~13s Abstand	Sauber, dokumentarisch
Medium	7	~7s Abstand	Ausgewogen (Standard)
Dense	10	~5s Abstand	Erklär-Energie

Beispiel-Prompt

Recording is cut. Add B-roll:
- Centered layout (screen top-left, B-roll center)
- Medium density
- Cute, warm visuals
- All text in English

Einen Slot überarbeiten

Slot 3 should show a Swift logo instead of the Apple emoji.
Re-render slot 3 and re-apply.

Der Agent generiert nur diesen Slot neu und wendet sein DSL-Fenster erneut an. Alles andere bleibt.

Alles zusammenfügen

# 1. Claude Code im Projektordner starten
claude

# 2. Transkriptions-Schnitt
"Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
# → Schnittliste überprüfen → "yes"

# 3. B-Roll
"Add B-roll — centered layout, medium density, cute English visuals"
# → 7-Slot-Beat-Menü überprüfen → "Medium, looks good"
# → Agent generiert parallel, rendert seriell, wendet DSL an (~3 Min.)

# 4. Stichprobe
"Show me slot 4 at 18s"
# → in ScreenKite scrubben

# 5. Bei Bedarf anpassen
"Slot 4 — change the node diagram to use mint green for all nodes"

Gesamte Handhabungszeit: unter 5 Minuten. Renderzeit: ~2–3 Minuten für 7 Slots.

Weitere Workflows, Beispiel-Prompts und Community-Skills: github.com/ScreenKite/awesome-ai-video-editing

Agentic Video Editing

Vorflug: Bereitschaft des lokalen Modells

Den Agenten anweisen

Claude Code

Codex CLI

Gemini CLI

Was der Agent tatsächlich aufruft

Skills (Fähigkeiten)

Installieren

Verfügbare Skills

Einen Skill in Claude Code aufrufen

Teil 1 — Transkriptions-basierte Schnitte

Was der Agent tut

Beispiel-Prompt

Was geschnitten wird

Teil 2 — Automatische B-Roll-Generierung

Layout-Stile

Was der Agent tut

Der visuelle Vertrag

Dichte-Pakete

Beispiel-Prompt

Einen Slot überarbeiten

Alles zusammenfügen

Agentic Video Editing

Vorflug: Bereitschaft des lokalen Modells

Den Agenten anweisen

Claude Code

Codex CLI

Gemini CLI

Was der Agent tatsächlich aufruft

Skills (Fähigkeiten)

Installieren

Verfügbare Skills

Einen Skill in Claude Code aufrufen

Teil 1 — Transkriptions-basierte Schnitte

Was der Agent tut

Beispiel-Prompt

Was geschnitten wird

Teil 2 — Automatische B-Roll-Generierung

Layout-Stile

Was der Agent tut

Der visuelle Vertrag

Dichte-Pakete

Beispiel-Prompt

Einen Slot überarbeiten

Alles zusammenfügen