Apri la tua registrazione .skbundle in ScreenKite, poi dai istruzioni al tuo agente IA (Claude Code, Codex, Gemini CLI o qualsiasi agente con gli strumenti MCP di ScreenKite). L'agente si occupa di due cose: tagliare la trascrizione e generare B-Roll con layout di scena. Tu rivedi e approvi; lui esegue.

Workflow della community, prompt e pack di competenze: github.com/ScreenKite/awesome-ai-video-editing

Preflight: Disponibilità del modello locale

Prima che l'agente possa trascrivere usando WhisperKit, i file del modello devono esistere sul disco. Il CLI dell'agente lo verifica all'avvio — se il percorso del modello selezionato manca o è obsoleto, vedrai:

WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.

Per risolvere:

Apri Settings (Impostazioni) → Transcription (Trascrizione).
Seleziona il sotto-tab Word-Level (Livello parola).
Imposta il provider su Local (Locale) (o Automatic (Automatico) per preferire ElevenLabs con WhisperKit come fallback).
Nella sezione WhisperKit model (Modello WhisperKit), scegli un modello dal menu, poi clicca su Download Selected Model (Scarica modello selezionato).
Attendi che la barra di avanzamento si completi; l'etichetta cambia in Model downloaded (Modello scaricato).
Riesegui il comando del tuo agente — il controllo di disponibilità passerà.

Dare istruzioni all'agente

Non scrivi codice. Scrivi una frase. L'agente chiama gli strumenti CLI e MCP di ScreenKite per conto tuo.

Claude Code

# Avvia una sessione interattiva nella tua cartella di progetto
claude

# Poi digita:
Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.

# Oppure in una sola volta dal terminale
claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"

Codex CLI

codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"

# B-roll in un solo passaggio
codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"

Gemini CLI

gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."

Cosa chiama effettivamente l'agente

Sotto il cofano, ogni sessione inizia con:

# Apri il progetto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
  --path ~/Desktop/Recording.skbundle --json

# Leggi lo stato del progetto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
  --name getProjectState --input-json '{"scope":"summary"}' --json

Puoi eseguire questi comandi da solo per ispezionare lo stato in qualsiasi momento. --json su ogni chiamata rende l'output leggibile dalla macchina.

Competenze (Skills)

Le competenze sono pacchetti di prompt pre-costruiti che insegnano all'agente il workflow completo così non devi descriverlo da zero. Installale una volta; fai riferimento a esse per nome in qualsiasi sessione.

Installare

npx skills add ScreenKite/awesome-ai-video-editing

Competenze disponibili

use-screenkite-advanced-b-roll — Pipeline completa: trascrivere con ElevenLabs, comprimere in vista frasi, correggere i nomi propri, proporre menu visuale con pacchetti di densità, generare composizioni Hyperframes in parallelo, renderizzare in MP4, applicare DSL setSceneLayout con transizioni magicMove.

claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."

video-use — Editing incentrato sulla trascrizione: trascrivere, comprimere, pianificare i tagli, confermare, eseguire. Gestisce anche correzione del colore, sottotitoli e overlay animazione via FFmpeg quando si lavora fuori da ScreenKite.

claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."

Invocare una competenza in Claude Code

Se hai Claude Code aperto in modo interattivo, digita il nome della competenza come comando slash:

/use-screenkite-advanced-b-roll

La competenza carica le sue istruzioni e ti chiede il percorso della registrazione.

Parte 1 — Tagli basati sulla trascrizione

Cosa fa l'agente

Trascrive la traccia del microfono con ElevenLabs Scribe — timestamp a livello di parola, in cache così non ricarica mai lo stesso file
Comprime il JSON grezzo in una vista frasi leggibile (le frasi si interrompono su silenzi ≥ 0.5s)
Corregge ogni nome di prodotto o nome proprio tramite ricerca web — l'ASR fraintende spesso i nomi (es. "ScreenKite" trascritto come "Screencast"); nomi errati si propagano in tutti i sottotitoli e visual a valle
Propone una lista di tagli con intervalli di tempo esatti e una ragione in linguaggio semplice per ogni taglio
Aspetta la tua approvazione prima di toccare la timeline

Gli stessi timestamp delle parole alimentano i sottotitoli generati. Quando un agente crea sottotitoli in ScreenKite, usa il provider di trascrizione Word-Level (Livello parola) configurato e importa un cue di sottotitolo per parola parlata invece di lunghi blocchi di frasi. Consulta Word-Level Generated Captions (Sottotitoli generati a livello parola) per la configurazione lato app.

Prompt di esempio

Open ~/Desktop/Recording.skbundle and transcribe + cut.
Show me the cut plan first, don't touch the timeline yet.
ElevenLabs key is in ~/.config/env/elevenlabs.env

L'agente restituisce qualcosa come:

[000.06–000.66]  "HelloPro."          → false start
[002.14–002.56]  "Hello."             → second false start
--- CUT [0 → 2.98s] ---
[011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
[043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]

Result: 58.8s → 51.2s
Apply these 3 cuts?

Rispondi yes e tutti i tagli vengono applicati in una sola chiamata tramite editTimeline(action: "cut", {ranges: [...]}).

Cosa viene tagliato

Falsi inizi — tutto prima della vera prima frase (test del microfono, saluti ripetuti)
Parole di riempimento — "Ehm," "Um," "Tipo" isolate con sufficiente silenzio da entrambi i lati
Frasi di transizione — "E vediamo," "Ok quindi," "Comunque" che riempiono tra i punti narrativi

L'agente non taglia mai a metà parola, imbottisce ogni bordo del taglio di 100–150ms dai confini delle parole e preferisce silenzi ≥ 400ms come obiettivi di taglio.

Parte 2 — Generazione automatica di B-Roll

Dopo i tagli, l'agente mappa la trascrizione su dei beat e genera un visual animato per ciascuno usando Hyperframes (HTML + GSAP → MP4). Ogni visual viene posizionato come layout di scena in ScreenKite con una transizione magicMove.

Stili di layout

Corner PiP — la registrazione dello schermo riempie il canvas, il B-Roll appare come accento in un angolo (40–42% di larghezza). Ideale per tutorial dove il contenuto dello schermo è la storia principale.

Centered B-roll — la registrazione dello schermo si riduce in alto a sinistra (~38%), il B-Roll viene riprodotto al centro (~56% di larghezza). Ideale per presentazioni di prodotti dove il visual deve essere prominente.

# Corner PiP (predefinito)
claude "add B-roll with corner layout"

# Centrato
claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"

Cosa fa l'agente

Mappatura dei beat — mappa le frasi della trascrizione tagliata su beat: nome del prodotto, funzionalità chiave, workflow, CTA
Scelta della densità — propone Sparso (4), Medio (7) o Denso (10); mostra un menu di slot; aspetta la tua scelta
Generazione in parallelo — invia un sub-agente per slot simultaneamente; ognuno scrive una composizione Hyperframes completa 1920×1080
Render in serie — renderizza ogni slot in MP4 in sequenza (i Chrome paralleli corrompono i frame)
Applicazione del DSL — chiama setSceneLayout per ogni finestra temporale con il layout scelto

Il contratto visuale

Ogni visual generato segue queste regole:

Contenuto a pieno frame — l'MP4 1920×1080 è il frame PiP; il contenuto lo riempie bordo a bordo (posizionare una piccola card all'interno di un frame per lo più vuoto la seppellisce in un angolo di un angolo)
Entrata → mantenimento → nessuna uscita interna — i visual entrano in animazione (0–1.5s), si stabilizzano in un mantenimento leggibile e si fermano. magicMove gestisce l'uscita. Le dissolvenze interne producono un doppio uscita rotto.
Tipografia grande — testo display 160–220px, corpo 48–72px; al 40–56% di larghezza rimane leggibile sullo schermo

Pacchetti di densità

Pacchetto	Slot	Spaziatura	Sensazione
Sparso	4	~13s di distanza	Pulito, documentaristico
Medio	7	~7s di distanza	Bilanciato (predefinito)
Denso	10	~5s di distanza	Energia da tutorial

Prompt di esempio

Recording is cut. Add B-roll:
- Centered layout (screen top-left, B-roll center)
- Medium density
- Cute, warm visuals
- All text in English

Iterare su uno slot

Slot 3 should show a Swift logo instead of the Apple emoji.
Re-render slot 3 and re-apply.

L'agente rigenera solo quello slot e riapplica la sua finestra DSL. Tutto il resto rimane.

Mettere tutto insieme

# 1. Avvia Claude Code nella tua cartella di progetto
claude

# 2. Taglio della trascrizione
"Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
# → controlla la lista dei tagli → "yes"

# 3. B-roll
"Add B-roll — centered layout, medium density, cute English visuals"
# → controlla il menu a 7 slot → "Medium, looks good"
# → l'agente genera in parallelo, renderizza in serie, applica DSL (~3 min)

# 4. Controllo spot
"Show me slot 4 at 18s"
# → scorri in ScreenKite

# 5. Modifica se necessario
"Slot 4 — change the node diagram to use mint green for all nodes"

Tempo di gestione manuale: meno di 5 minuti. Tempo di rendering: ~2–3 minuti per 7 slot.

Per altri workflow, prompt di esempio e competenze della community: github.com/ScreenKite/awesome-ai-video-editing

Workflow della community, prompt e pack di competenze: github.com/ScreenKite/awesome-ai-video-editing

Preflight: Disponibilità del modello locale

WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.

Per risolvere:

Apri Settings (Impostazioni) → Transcription (Trascrizione).
Seleziona il sotto-tab Word-Level (Livello parola).
Imposta il provider su Local (Locale) (o Automatic (Automatico) per preferire ElevenLabs con WhisperKit come fallback).
Nella sezione WhisperKit model (Modello WhisperKit), scegli un modello dal menu, poi clicca su Download Selected Model (Scarica modello selezionato).
Attendi che la barra di avanzamento si completi; l'etichetta cambia in Model downloaded (Modello scaricato).
Riesegui il comando del tuo agente — il controllo di disponibilità passerà.

Dare istruzioni all'agente

Non scrivi codice. Scrivi una frase. L'agente chiama gli strumenti CLI e MCP di ScreenKite per conto tuo.

Claude Code

# Avvia una sessione interattiva nella tua cartella di progetto
claude

# Poi digita:
Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.

# Oppure in una sola volta dal terminale
claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"

Codex CLI

codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"

# B-roll in un solo passaggio
codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"

Gemini CLI

gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."

Cosa chiama effettivamente l'agente

Sotto il cofano, ogni sessione inizia con:

# Apri il progetto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
  --path ~/Desktop/Recording.skbundle --json

# Leggi lo stato del progetto
'/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
  --name getProjectState --input-json '{"scope":"summary"}' --json

Puoi eseguire questi comandi da solo per ispezionare lo stato in qualsiasi momento. --json su ogni chiamata rende l'output leggibile dalla macchina.

Competenze (Skills)

Installare

npx skills add ScreenKite/awesome-ai-video-editing

Competenze disponibili

claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."

claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."

Invocare una competenza in Claude Code

Se hai Claude Code aperto in modo interattivo, digita il nome della competenza come comando slash:

/use-screenkite-advanced-b-roll

La competenza carica le sue istruzioni e ti chiede il percorso della registrazione.

Parte 1 — Tagli basati sulla trascrizione

Cosa fa l'agente

Trascrive la traccia del microfono con ElevenLabs Scribe — timestamp a livello di parola, in cache così non ricarica mai lo stesso file
Comprime il JSON grezzo in una vista frasi leggibile (le frasi si interrompono su silenzi ≥ 0.5s)
Corregge ogni nome di prodotto o nome proprio tramite ricerca web — l'ASR fraintende spesso i nomi (es. "ScreenKite" trascritto come "Screencast"); nomi errati si propagano in tutti i sottotitoli e visual a valle
Propone una lista di tagli con intervalli di tempo esatti e una ragione in linguaggio semplice per ogni taglio
Aspetta la tua approvazione prima di toccare la timeline

Prompt di esempio

Open ~/Desktop/Recording.skbundle and transcribe + cut.
Show me the cut plan first, don't touch the timeline yet.
ElevenLabs key is in ~/.config/env/elevenlabs.env

L'agente restituisce qualcosa come:

[000.06–000.66]  "HelloPro."          → false start
[002.14–002.56]  "Hello."             → second false start
--- CUT [0 → 2.98s] ---
[011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
[043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]

Result: 58.8s → 51.2s
Apply these 3 cuts?

Rispondi yes e tutti i tagli vengono applicati in una sola chiamata tramite editTimeline(action: "cut", {ranges: [...]}).

Cosa viene tagliato

Falsi inizi — tutto prima della vera prima frase (test del microfono, saluti ripetuti)
Parole di riempimento — "Ehm," "Um," "Tipo" isolate con sufficiente silenzio da entrambi i lati
Frasi di transizione — "E vediamo," "Ok quindi," "Comunque" che riempiono tra i punti narrativi

L'agente non taglia mai a metà parola, imbottisce ogni bordo del taglio di 100–150ms dai confini delle parole e preferisce silenzi ≥ 400ms come obiettivi di taglio.

Parte 2 — Generazione automatica di B-Roll

Stili di layout

# Corner PiP (predefinito)
claude "add B-roll with corner layout"

# Centrato
claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"

Cosa fa l'agente

Mappatura dei beat — mappa le frasi della trascrizione tagliata su beat: nome del prodotto, funzionalità chiave, workflow, CTA
Scelta della densità — propone Sparso (4), Medio (7) o Denso (10); mostra un menu di slot; aspetta la tua scelta
Generazione in parallelo — invia un sub-agente per slot simultaneamente; ognuno scrive una composizione Hyperframes completa 1920×1080
Render in serie — renderizza ogni slot in MP4 in sequenza (i Chrome paralleli corrompono i frame)
Applicazione del DSL — chiama setSceneLayout per ogni finestra temporale con il layout scelto

Il contratto visuale

Ogni visual generato segue queste regole:

Contenuto a pieno frame — l'MP4 1920×1080 è il frame PiP; il contenuto lo riempie bordo a bordo (posizionare una piccola card all'interno di un frame per lo più vuoto la seppellisce in un angolo di un angolo)
Entrata → mantenimento → nessuna uscita interna — i visual entrano in animazione (0–1.5s), si stabilizzano in un mantenimento leggibile e si fermano. magicMove gestisce l'uscita. Le dissolvenze interne producono un doppio uscita rotto.
Tipografia grande — testo display 160–220px, corpo 48–72px; al 40–56% di larghezza rimane leggibile sullo schermo

Pacchetti di densità

Pacchetto	Slot	Spaziatura	Sensazione
Sparso	4	~13s di distanza	Pulito, documentaristico
Medio	7	~7s di distanza	Bilanciato (predefinito)
Denso	10	~5s di distanza	Energia da tutorial

Prompt di esempio

Recording is cut. Add B-roll:
- Centered layout (screen top-left, B-roll center)
- Medium density
- Cute, warm visuals
- All text in English

Iterare su uno slot

Slot 3 should show a Swift logo instead of the Apple emoji.
Re-render slot 3 and re-apply.

L'agente rigenera solo quello slot e riapplica la sua finestra DSL. Tutto il resto rimane.

Mettere tutto insieme

# 1. Avvia Claude Code nella tua cartella di progetto
claude

# 2. Taglio della trascrizione
"Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
# → controlla la lista dei tagli → "yes"

# 3. B-roll
"Add B-roll — centered layout, medium density, cute English visuals"
# → controlla il menu a 7 slot → "Medium, looks good"
# → l'agente genera in parallelo, renderizza in serie, applica DSL (~3 min)

# 4. Controllo spot
"Show me slot 4 at 18s"
# → scorri in ScreenKite

# 5. Modifica se necessario
"Slot 4 — change the node diagram to use mint green for all nodes"

Tempo di gestione manuale: meno di 5 minuti. Tempo di rendering: ~2–3 minuti per 7 slot.

Per altri workflow, prompt di esempio e competenze della community: github.com/ScreenKite/awesome-ai-video-editing

Agentic Video Editing

Preflight: Disponibilità del modello locale

Dare istruzioni all'agente

Claude Code

Codex CLI

Gemini CLI

Cosa chiama effettivamente l'agente

Competenze (Skills)

Installare

Competenze disponibili

Invocare una competenza in Claude Code

Parte 1 — Tagli basati sulla trascrizione

Cosa fa l'agente

Prompt di esempio

Cosa viene tagliato

Parte 2 — Generazione automatica di B-Roll

Stili di layout

Cosa fa l'agente

Il contratto visuale

Pacchetti di densità

Prompt di esempio

Iterare su uno slot

Mettere tutto insieme

Agentic Video Editing

Preflight: Disponibilità del modello locale

Dare istruzioni all'agente

Claude Code

Codex CLI

Gemini CLI

Cosa chiama effettivamente l'agente

Competenze (Skills)

Installare

Competenze disponibili

Invocare una competenza in Claude Code

Parte 1 — Tagli basati sulla trascrizione

Cosa fa l'agente

Prompt di esempio

Cosa viene tagliato

Parte 2 — Generazione automatica di B-Roll

Stili di layout

Cosa fa l'agente

Il contratto visuale

Pacchetti di densità

Prompt di esempio

Iterare su uno slot

Mettere tutto insieme