ScreenKiteScreenKite|Anleitung
    • ScreenKite installieren
    • Systemvoraussetzungen
    • Berechtigungen einrichten
    • Neue Aufnahme
    • Ganzen Bildschirm aufnehmen
    • Ein Fenster aufnehmen
    • Einen Bereich aufnehmen
    • Webcam und Mikrofon
    • System-Audio
    • iOS-Geräte aufnehmen
    • Tastaturkurzbefehle
    • Screenshots teilen
    • Auto-Zoom
    • Zoom-Einstellungen konfigurieren
    • Übersicht über den Projekt-Editor
    • Timeline & Spuren
    • Kürzen & Teilen
    • Anpassung des Erscheinungsbilds
    • Geräterahmen
    • Agentic Video Editing
    • Auf Wortebene generierte Untertitel
    • Vorschau-Qualität
    • KI-Chat-Assistent
    • Editor-Einstellungen
    • Exporteinstellungen
    • Export nach Final Cut Pro (FCPXML)
    • Häufige Probleme
    • Berechtigungen & Zugriff
    ← ScreenKite-Startseite
    Anleitung/Bearbeitung

    Agentic Video Editing

    Öffne deine .skbundle-Aufnahme in ScreenKite und gib dann deinem KI-Agenten (Claude Code, Codex, Gemini CLI oder einem beliebigen Agenten mit ScreenKites MCP-Tools) Anweisungen. Der Agent erledigt zwei Dinge: die Transkription schneiden und B-Roll mit Szenen-Layouts generieren. Du überprüfst und bestätigst; er führt aus.

    Community-Workflows, Prompts und Skill-Packs: github.com/ScreenKite/awesome-ai-video-editing


    Vorflug: Bereitschaft des lokalen Modells

    Bevor der Agent WhisperKit für die Transkription verwenden kann, müssen die Modelldateien auf dem Datenträger vorhanden sein. Der Agent-CLI prüft dies beim Start — wenn der Pfad des ausgewählten Modells fehlt oder veraltet ist, wird Folgendes angezeigt:

    WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
    

    So behebst du das:

    1. Öffne Settings (Einstellungen) → Transcription (Transkription).
    2. Wähle den Unter-Tab Word-Level (Wortebene).
    3. Setze den Anbieter auf Local (Lokal) (oder Automatic (Automatisch), um ElevenLabs zu bevorzugen und WhisperKit als Fallback zu verwenden).
    4. Wähle im Bereich WhisperKit model (WhisperKit-Modell) ein Modell aus dem Menü aus und klicke auf Download Selected Model (Ausgewähltes Modell herunterladen).
    5. Warte, bis der Fortschrittsbalken abgeschlossen ist; die Bezeichnung wechselt zu Model downloaded (Modell heruntergeladen).
    6. Führe deinen Agenten-Befehl erneut aus — die Bereitschaftsprüfung wird bestehen.
    ✅

    Relative Dateipfade in Agentenbefehlen werden automatisch relativ zum aktuellen Arbeitsverzeichnis der Shell aufgelöst, bevor sie an die App weitergeleitet werden. Du kannst ./Recording.skbundle oder nur den Dateinamen übergeben, wenn du dich bereits im richtigen Ordner befindest.


    Den Agenten anweisen

    Du schreibst keinen Code. Du schreibst einen Satz. Der Agent ruft ScreenKites CLI- und MCP-Tools in deinem Namen auf.

    💡

    Arbeitest du lieber vollständig im Editor? Das integrierte AI Chat-Panel hat Zugang zu denselben MCP-Tools wie externe Agenten — kein Terminal erforderlich. Siehe AI Chat Assistant (KI-Chat-Assistent) für Einrichtung und Verwendung.

    Claude Code

    # Starte eine interaktive Sitzung in deinem Projektordner
    claude
    
    # Dann eingeben:
    Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
    
    # Oder einmalig vom Terminal aus
    claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
    

    Codex CLI

    codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
    
    # B-Roll in einem Schritt
    codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
    

    Gemini CLI

    gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
    

    Was der Agent tatsächlich aufruft

    Unter der Haube beginnt jede Sitzung mit:

    # Projekt öffnen
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
      --path ~/Desktop/Recording.skbundle --json
    
    # Projektstatus lesen
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
      --name getProjectState --input-json '{"scope":"summary"}' --json
    

    Du kannst diese Befehle jederzeit selbst ausführen, um den Status zu prüfen. --json bei jedem Aufruf macht die Ausgabe maschinenlesbar.


    Skills (Fähigkeiten)

    Skills sind vorgefertigte Prompt-Pakete, die den Agenten den vollständigen Workflow lehren, damit du ihn nicht von Grund auf neu beschreiben musst. Einmal installieren; in jeder Sitzung nach Namen referenzieren.

    Installieren

    npx skills add ScreenKite/awesome-ai-video-editing
    

    Verfügbare Skills

    use-screenkite-advanced-b-roll — Vollständige Pipeline: Mit ElevenLabs transkribieren, in Phrasenansicht verpacken, Eigennamen korrekturlesen, visuelles Menü mit Dichte-Paketen vorschlagen, Hyperframes-Kompositionen parallel generieren, zu MP4 rendern, setSceneLayout-DSL mit magicMove-Übergängen anwenden.

    claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
    

    video-use — Transkriptions-fokussiertes Editing: Transkribieren, verpacken, Schnitte planen, bestätigen, ausführen. Verarbeitet auch Farbkorrektur, Untertitel und Animations-Overlays via FFmpeg bei der Arbeit außerhalb von ScreenKite.

    claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
    

    Einen Skill in Claude Code aufrufen

    Wenn Claude Code interaktiv geöffnet ist, tippe den Skill-Namen als Slash-Befehl:

    /use-screenkite-advanced-b-roll
    

    Der Skill lädt seine Anweisungen und fragt nach dem Aufnahmepfad.


    Teil 1 — Transkriptions-basierte Schnitte

    Was der Agent tut

    1. Transkribiert deine Mikrofonspur mit ElevenLabs Scribe — Zeitstempel auf Wortebene, gecacht, sodass dieselbe Datei nie erneut hochgeladen wird
    2. Verpackt das rohe JSON in eine lesbare Phrasenansicht (Phrasen brechen bei Stille ≥ 0.5s)
    3. Liest jeden Produktnamen oder Eigennamen per Websuche Korrektur — ASR hört Namen regelmäßig falsch (z.B. "ScreenKite" transkribiert als "Screencast"); falsche Namen verbreiten sich in alle nachgelagerten Untertitel und Grafiken
    4. Schlägt eine Schnittliste mit genauen Zeitbereichen und einer verständlichen Begründung für jeden Schnitt vor
    5. Wartet auf deine Bestätigung, bevor die Timeline angetastet wird

    Dieselben Wort-Zeitstempel treiben generierte Untertitel an. Wenn ein Agent in ScreenKite Untertitel erstellt, verwendet er den konfigurierten Word-Level (Wortebene)-Transkriptionsanbieter und importiert einen Untertitel-Cue pro gesprochenem Wort statt langer Satzblöcke. Siehe Word-Level Generated Captions (Auf Wortebene generierte Untertitel) für die App-seitige Einrichtung.

    ⚠️

    Timeline-Schnitte können nicht über den CLI rückgängig gemacht werden. Der Agent zeigt immer die vollständige Schnittliste und wartet auf deine Bestätigung. Überprüfe sie — besonders die erste und letzte Grenze.

    Beispiel-Prompt

    Open ~/Desktop/Recording.skbundle and transcribe + cut.
    Show me the cut plan first, don't touch the timeline yet.
    ElevenLabs key is in ~/.config/env/elevenlabs.env
    

    Der Agent gibt etwas zurück wie:

    [000.06–000.66]  "HelloPro."          → false start
    [002.14–002.56]  "Hello."             → second false start
    --- CUT [0 → 2.98s] ---
    [011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
    [043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]
    
    Result: 58.8s → 51.2s
    Apply these 3 cuts?
    

    Antworte mit yes und alle Schnitte werden in einem einzigen Aufruf über editTimeline(action: "cut", {ranges: [...]}) angewendet.

    Was geschnitten wird

    • Fehlstarts — alles vor dem echten ersten Satz (Mikrofontests, wiederholte Begrüßungen)
    • Füllwörter — isolierte "Äh," "Hmm," "Also" mit ausreichend Stille auf beiden Seiten
    • Übergangssätze — "Und schauen wir mal," "OK also," "Jedenfalls" die zwischen Inhaltspunkten auffüllen

    Der Agent schneidet nie mitten in einem Wort, polstert jede Schnittkante mit 100–150ms von Wortgrenzen und bevorzugt Stillen ≥ 400ms als Schnittziele.


    Teil 2 — Automatische B-Roll-Generierung

    Nach den Schnitten mappt der Agent die Transkription auf Beats und generiert mit Hyperframes (HTML + GSAP → MP4) für jeden Beat eine animierte Grafik. Jede Grafik wird als Szenen-Layout in ScreenKite mit einem magicMove-Übergang platziert.

    Layout-Stile

    Corner PiP — die Bildschirmaufnahme füllt die Leinwand, das B-Roll erscheint als Eck-Akzent (40–42% Breite). Ideal für Tutorials, bei denen der Bildschirminhalt die Haupthandlung ist.

    Centered B-roll — die Bildschirmaufnahme wird oben links verkleinert (~38%), das B-Roll spielt zentriert (~56% Breite). Ideal für Produkt-Intros, bei denen das Visuelle im Vordergrund stehen soll.

    # Corner PiP (Standard)
    claude "add B-roll with corner layout"
    
    # Zentriert
    claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
    

    Was der Agent tut

    1. Beat-Mapping — mappt geschnittene Transkriptions-Phrasen auf Beats: Produktname, Schlüsselfunktion, Workflow, CTA
    2. Dichte-Wahl — schlägt Sparse (4), Medium (7) oder Dense (10) vor; zeigt ein Slot-Menü; wartet auf deine Wahl
    3. Parallele Generierung — sendet gleichzeitig einen Sub-Agenten pro Slot; jeder schreibt eine vollständige 1920×1080-Hyperframes-Komposition
    4. Serielle Renders — rendert jeden Slot sequenziell zu MP4 (parallele Chrome-Instanzen korrumpieren Frames)
    5. DSL-Anwendung — ruft setSceneLayout für jedes Zeitfenster mit dem gewählten Layout auf

    Der visuelle Vertrag

    Jede generierte Grafik folgt diesen Regeln:

    • Vollbild-Inhalt — das 1920×1080-MP4 ist der PiP-Frame; der Inhalt füllt ihn bis zu den Rändern (eine kleine Karte in einem überwiegend leeren Frame zu platzieren vergräbt sie in einer Ecke einer Ecke)
    • Einblendung → Halt → kein interner Ausblend — Grafiken werden eingeblendet (0–1.5s), stabilisieren sich in einem lesbaren Halt und stoppen. magicMove behandelt den Ausblend. Interne Ausblendungen erzeugen einen defekten Doppel-Ausblend.
    • Große Typografie — Display-Text 160–220px, Fließtext 48–72px; bei 40–56% Breite bleibt dies auf dem Bildschirm lesbar

    Dichte-Pakete

    PaketSlotsAbstandWirkung
    Sparse4~13s AbstandSauber, dokumentarisch
    Medium7~7s AbstandAusgewogen (Standard)
    Dense10~5s AbstandErklär-Energie

    Beispiel-Prompt

    Recording is cut. Add B-roll:
    - Centered layout (screen top-left, B-roll center)
    - Medium density
    - Cute, warm visuals
    - All text in English
    

    Einen Slot überarbeiten

    Slot 3 should show a Swift logo instead of the Apple emoji.
    Re-render slot 3 and re-apply.
    

    Der Agent generiert nur diesen Slot neu und wendet sein DSL-Fenster erneut an. Alles andere bleibt.

    ⚠️

    Beim erneuten Anwenden eines Layout-Fensters über einem zuvor längeren können verbleibende "Schwanz"-Segmente weiter abspielen. Der Agent löscht diese automatisch. Wenn du setSceneLayout manuell anwendest und siehst, dass B-Roll zu lange läuft, rufe setSceneLayout mit mode: "pictureInPicture" über den Schwanz-Bereich auf, um ihn zu löschen.


    Alles zusammenfügen

    # 1. Claude Code im Projektordner starten
    claude
    
    # 2. Transkriptions-Schnitt
    "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
    # → Schnittliste überprüfen → "yes"
    
    # 3. B-Roll
    "Add B-roll — centered layout, medium density, cute English visuals"
    # → 7-Slot-Beat-Menü überprüfen → "Medium, looks good"
    # → Agent generiert parallel, rendert seriell, wendet DSL an (~3 Min.)
    
    # 4. Stichprobe
    "Show me slot 4 at 18s"
    # → in ScreenKite scrubben
    
    # 5. Bei Bedarf anpassen
    "Slot 4 — change the node diagram to use mint green for all nodes"
    

    Gesamte Handhabungszeit: unter 5 Minuten. Renderzeit: ~2–3 Minuten für 7 Slots.

    Weitere Workflows, Beispiel-Prompts und Community-Skills: github.com/ScreenKite/awesome-ai-video-editing

    Zuruck

    ← Geräterahmen

    Weiter

    Auf Wortebene generierte Untertitel→