Apri la tua registrazione .skbundle in ScreenKite, poi dai istruzioni al tuo agente IA (Claude Code, Codex, Gemini CLI o qualsiasi agente con gli strumenti MCP di ScreenKite). L'agente si occupa di due cose: tagliare la trascrizione e generare B-Roll con layout di scena. Tu rivedi e approvi; lui esegue.
Workflow della community, prompt e pack di competenze: github.com/ScreenKite/awesome-ai-video-editing
Preflight: Disponibilità del modello locale
Prima che l'agente possa trascrivere usando WhisperKit, i file del modello devono esistere sul disco. Il CLI dell'agente lo verifica all'avvio — se il percorso del modello selezionato manca o è obsoleto, vedrai:
WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
Per risolvere:
- Apri Settings (Impostazioni) → Transcription (Trascrizione).
- Seleziona il sotto-tab Word-Level (Livello parola).
- Imposta il provider su Local (Locale) (o Automatic (Automatico) per preferire ElevenLabs con WhisperKit come fallback).
- Nella sezione WhisperKit model (Modello WhisperKit), scegli un modello dal menu, poi clicca su Download Selected Model (Scarica modello selezionato).
- Attendi che la barra di avanzamento si completi; l'etichetta cambia in Model downloaded (Modello scaricato).
- Riesegui il comando del tuo agente — il controllo di disponibilità passerà.
Dare istruzioni all'agente
Non scrivi codice. Scrivi una frase. L'agente chiama gli strumenti CLI e MCP di ScreenKite per conto tuo.
Claude Code
# Avvia una sessione interattiva nella tua cartella di progetto claude # Poi digita: Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
# Oppure in una sola volta dal terminale claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
Codex CLI
codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
# B-roll in un solo passaggio codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
Gemini CLI
gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
Cosa chiama effettivamente l'agente
Sotto il cofano, ogni sessione inizia con:
# Apri il progetto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
--path ~/Desktop/Recording.skbundle --json
# Leggi lo stato del progetto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
--name getProjectState --input-json '{"scope":"summary"}' --json
Puoi eseguire questi comandi da solo per ispezionare lo stato in qualsiasi momento. --json su ogni chiamata rende l'output leggibile dalla macchina.
Competenze (Skills)
Le competenze sono pacchetti di prompt pre-costruiti che insegnano all'agente il workflow completo così non devi descriverlo da zero. Installale una volta; fai riferimento a esse per nome in qualsiasi sessione.
Installare
npx skills add ScreenKite/awesome-ai-video-editing
Competenze disponibili
use-screenkite-advanced-b-roll — Pipeline completa: trascrivere con ElevenLabs, comprimere in vista frasi, correggere i nomi propri, proporre menu visuale con pacchetti di densità, generare composizioni Hyperframes in parallelo, renderizzare in MP4, applicare DSL setSceneLayout con transizioni magicMove.
claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
video-use — Editing incentrato sulla trascrizione: trascrivere, comprimere, pianificare i tagli, confermare, eseguire. Gestisce anche correzione del colore, sottotitoli e overlay animazione via FFmpeg quando si lavora fuori da ScreenKite.
claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
Invocare una competenza in Claude Code
Se hai Claude Code aperto in modo interattivo, digita il nome della competenza come comando slash:
/use-screenkite-advanced-b-roll
La competenza carica le sue istruzioni e ti chiede il percorso della registrazione.
Parte 1 — Tagli basati sulla trascrizione
Cosa fa l'agente
- Trascrive la traccia del microfono con ElevenLabs Scribe — timestamp a livello di parola, in cache così non ricarica mai lo stesso file
- Comprime il JSON grezzo in una vista frasi leggibile (le frasi si interrompono su silenzi ≥ 0.5s)
- Corregge ogni nome di prodotto o nome proprio tramite ricerca web — l'ASR fraintende spesso i nomi (es. "ScreenKite" trascritto come "Screencast"); nomi errati si propagano in tutti i sottotitoli e visual a valle
- Propone una lista di tagli con intervalli di tempo esatti e una ragione in linguaggio semplice per ogni taglio
- Aspetta la tua approvazione prima di toccare la timeline
Gli stessi timestamp delle parole alimentano i sottotitoli generati. Quando un agente crea sottotitoli in ScreenKite, usa il provider di trascrizione Word-Level (Livello parola) configurato e importa un cue di sottotitolo per parola parlata invece di lunghi blocchi di frasi. Consulta Word-Level Generated Captions (Sottotitoli generati a livello parola) per la configurazione lato app.
Prompt di esempio
Open ~/Desktop/Recording.skbundle and transcribe + cut. Show me the cut plan first, don't touch the timeline yet. ElevenLabs key is in ~/.config/env/elevenlabs.env
L'agente restituisce qualcosa come:
[000.06–000.66] "HelloPro." → false start [002.14–002.56] "Hello." → second false start --- CUT [0 → 2.98s] --- [011.84–012.18] "Uh," → filler CUT [8.72–10.00] [043.60–045.16] "And let's see." → transition CUT [40.48–42.60] Result: 58.8s → 51.2s Apply these 3 cuts?
Rispondi yes e tutti i tagli vengono applicati in una sola chiamata tramite editTimeline(action: "cut", {ranges: [...]}).
Cosa viene tagliato
- Falsi inizi — tutto prima della vera prima frase (test del microfono, saluti ripetuti)
- Parole di riempimento — "Ehm," "Um," "Tipo" isolate con sufficiente silenzio da entrambi i lati
- Frasi di transizione — "E vediamo," "Ok quindi," "Comunque" che riempiono tra i punti narrativi
L'agente non taglia mai a metà parola, imbottisce ogni bordo del taglio di 100–150ms dai confini delle parole e preferisce silenzi ≥ 400ms come obiettivi di taglio.
Parte 2 — Generazione automatica di B-Roll
Dopo i tagli, l'agente mappa la trascrizione su dei beat e genera un visual animato per ciascuno usando Hyperframes (HTML + GSAP → MP4). Ogni visual viene posizionato come layout di scena in ScreenKite con una transizione magicMove.
Stili di layout
Corner PiP — la registrazione dello schermo riempie il canvas, il B-Roll appare come accento in un angolo (40–42% di larghezza). Ideale per tutorial dove il contenuto dello schermo è la storia principale.
Centered B-roll — la registrazione dello schermo si riduce in alto a sinistra (~38%), il B-Roll viene riprodotto al centro (~56% di larghezza). Ideale per presentazioni di prodotti dove il visual deve essere prominente.
# Corner PiP (predefinito) claude "add B-roll with corner layout" # Centrato claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
Cosa fa l'agente
- Mappatura dei beat — mappa le frasi della trascrizione tagliata su beat: nome del prodotto, funzionalità chiave, workflow, CTA
- Scelta della densità — propone Sparso (4), Medio (7) o Denso (10); mostra un menu di slot; aspetta la tua scelta
- Generazione in parallelo — invia un sub-agente per slot simultaneamente; ognuno scrive una composizione Hyperframes completa 1920×1080
- Render in serie — renderizza ogni slot in MP4 in sequenza (i Chrome paralleli corrompono i frame)
- Applicazione del DSL — chiama
setSceneLayoutper ogni finestra temporale con il layout scelto
Il contratto visuale
Ogni visual generato segue queste regole:
- Contenuto a pieno frame — l'MP4 1920×1080 è il frame PiP; il contenuto lo riempie bordo a bordo (posizionare una piccola card all'interno di un frame per lo più vuoto la seppellisce in un angolo di un angolo)
- Entrata → mantenimento → nessuna uscita interna — i visual entrano in animazione (0–1.5s), si stabilizzano in un mantenimento leggibile e si fermano.
magicMovegestisce l'uscita. Le dissolvenze interne producono un doppio uscita rotto. - Tipografia grande — testo display 160–220px, corpo 48–72px; al 40–56% di larghezza rimane leggibile sullo schermo
Pacchetti di densità
| Pacchetto | Slot | Spaziatura | Sensazione |
|---|---|---|---|
| Sparso | 4 | ~13s di distanza | Pulito, documentaristico |
| Medio | 7 | ~7s di distanza | Bilanciato (predefinito) |
| Denso | 10 | ~5s di distanza | Energia da tutorial |
Prompt di esempio
Recording is cut. Add B-roll: - Centered layout (screen top-left, B-roll center) - Medium density - Cute, warm visuals - All text in English
Iterare su uno slot
Slot 3 should show a Swift logo instead of the Apple emoji. Re-render slot 3 and re-apply.
L'agente rigenera solo quello slot e riapplica la sua finestra DSL. Tutto il resto rimane.
Mettere tutto insieme
# 1. Avvia Claude Code nella tua cartella di progetto claude # 2. Taglio della trascrizione "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env" # → controlla la lista dei tagli → "yes" # 3. B-roll "Add B-roll — centered layout, medium density, cute English visuals" # → controlla il menu a 7 slot → "Medium, looks good" # → l'agente genera in parallelo, renderizza in serie, applica DSL (~3 min) # 4. Controllo spot "Show me slot 4 at 18s" # → scorri in ScreenKite # 5. Modifica se necessario "Slot 4 — change the node diagram to use mint green for all nodes"
Tempo di gestione manuale: meno di 5 minuti. Tempo di rendering: ~2–3 minuti per 7 slot.
Per altri workflow, prompt di esempio e competenze della community: github.com/ScreenKite/awesome-ai-video-editing