ScreenKiteScreenKite|Guida
    • Installazione di ScreenKite
    • Requisiti di sistema
    • Configurazione delle autorizzazioni
    • Nuova registrazione
    • Registrazione dello schermo intero
    • Registrazione di una finestra
    • Registrazione di un'area
    • Webcam e microfono
    • Audio di sistema
    • Registrazione di dispositivi iOS
    • Scorciatoie da tastiera
    • Condivisione degli screenshot
    • Auto-zoom
    • Configurazione delle impostazioni di zoom
    • Panoramica dell'Editor di progetto
    • Timeline e tracce
    • Ritaglio e divisione
    • Personalizzazione dell'aspetto
    • Cornici dei dispositivi
    • Agentic Video Editing
    • Sottotitoli generati a livello parola
    • Qualità dell'anteprima
    • Assistente Chat IA
    • Impostazioni dell'editor
    • Impostazioni di esportazione
    • Esportazione in Final Cut Pro (FCPXML)
    • Problemi comuni
    • Autorizzazioni e accesso
    ← Home page di ScreenKite
    Guida/Modifica

    Agentic Video Editing

    Apri la tua registrazione .skbundle in ScreenKite, poi dai istruzioni al tuo agente IA (Claude Code, Codex, Gemini CLI o qualsiasi agente con gli strumenti MCP di ScreenKite). L'agente si occupa di due cose: tagliare la trascrizione e generare B-Roll con layout di scena. Tu rivedi e approvi; lui esegue.

    Workflow della community, prompt e pack di competenze: github.com/ScreenKite/awesome-ai-video-editing


    Preflight: Disponibilità del modello locale

    Prima che l'agente possa trascrivere usando WhisperKit, i file del modello devono esistere sul disco. Il CLI dell'agente lo verifica all'avvio — se il percorso del modello selezionato manca o è obsoleto, vedrai:

    WhisperKit transcription is not configured. Open Settings → Transcription and download a WhisperKit model. Stop here and ask the human to configure a transcription provider before continuing.
    

    Per risolvere:

    1. Apri Settings (Impostazioni) → Transcription (Trascrizione).
    2. Seleziona il sotto-tab Word-Level (Livello parola).
    3. Imposta il provider su Local (Locale) (o Automatic (Automatico) per preferire ElevenLabs con WhisperKit come fallback).
    4. Nella sezione WhisperKit model (Modello WhisperKit), scegli un modello dal menu, poi clicca su Download Selected Model (Scarica modello selezionato).
    5. Attendi che la barra di avanzamento si completi; l'etichetta cambia in Model downloaded (Modello scaricato).
    6. Riesegui il comando del tuo agente — il controllo di disponibilità passerà.
    ✅

    I percorsi relativi nei comandi dell'agente vengono risolti automaticamente rispetto alla directory di lavoro corrente della shell prima di essere inoltrati all'app. Puoi passare ./Recording.skbundle o solo il nome del file se sei già nella cartella corretta.


    Dare istruzioni all'agente

    Non scrivi codice. Scrivi una frase. L'agente chiama gli strumenti CLI e MCP di ScreenKite per conto tuo.

    💡

    Preferisci lavorare completamente nell'editor? Il pannello integrato AI Chat ha accesso agli stessi strumenti MCP degli agenti esterni — senza terminale. Consulta AI Chat Assistant (Assistente Chat IA) per configurazione e utilizzo.

    Claude Code

    # Avvia una sessione interattiva nella tua cartella di progetto
    claude
    
    # Poi digita:
    Open ~/Desktop/Recording.skbundle and do a transcript cut. Plan the cuts first.
    
    # Oppure in una sola volta dal terminale
    claude "Open ~/Desktop/Recording.skbundle, transcribe the mic with ElevenLabs, plan all cuts before executing"
    

    Codex CLI

    codex "Open ~/Desktop/Recording.skbundle and do a transcript cut — plan first, then wait for my approval"
    
    # B-roll in un solo passaggio
    codex "Open ~/Desktop/Recording.skbundle, transcribe and cut, then add medium-density B-roll with a centered layout"
    

    Gemini CLI

    gemini "Open ~/Desktop/Recording.skbundle. Transcribe the mic, plan the cuts, and show me the list before touching the timeline."
    

    Cosa chiama effettivamente l'agente

    Sotto il cofano, ogni sessione inizia con:

    # Apri il progetto
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent project open \
      --path ~/Desktop/Recording.skbundle --json
    
    # Leggi lo stato del progetto
    '/Applications/ScreenKite.app/Contents/MacOS/ScreenKite' agent tool call \
      --name getProjectState --input-json '{"scope":"summary"}' --json
    

    Puoi eseguire questi comandi da solo per ispezionare lo stato in qualsiasi momento. --json su ogni chiamata rende l'output leggibile dalla macchina.


    Competenze (Skills)

    Le competenze sono pacchetti di prompt pre-costruiti che insegnano all'agente il workflow completo così non devi descriverlo da zero. Installale una volta; fai riferimento a esse per nome in qualsiasi sessione.

    Installare

    npx skills add ScreenKite/awesome-ai-video-editing
    

    Competenze disponibili

    use-screenkite-advanced-b-roll — Pipeline completa: trascrivere con ElevenLabs, comprimere in vista frasi, correggere i nomi propri, proporre menu visuale con pacchetti di densità, generare composizioni Hyperframes in parallelo, renderizzare in MP4, applicare DSL setSceneLayout con transizioni magicMove.

    claude "use the use-screenkite-advanced-b-roll skill on ~/Desktop/Recording.skbundle. Cute visuals, centered layout, medium density."
    

    video-use — Editing incentrato sulla trascrizione: trascrivere, comprimere, pianificare i tagli, confermare, eseguire. Gestisce anche correzione del colore, sottotitoli e overlay animazione via FFmpeg quando si lavora fuori da ScreenKite.

    claude "use the video-use skill. Transcribe ~/Desktop/Recording.skbundle and plan a cut."
    

    Invocare una competenza in Claude Code

    Se hai Claude Code aperto in modo interattivo, digita il nome della competenza come comando slash:

    /use-screenkite-advanced-b-roll
    

    La competenza carica le sue istruzioni e ti chiede il percorso della registrazione.


    Parte 1 — Tagli basati sulla trascrizione

    Cosa fa l'agente

    1. Trascrive la traccia del microfono con ElevenLabs Scribe — timestamp a livello di parola, in cache così non ricarica mai lo stesso file
    2. Comprime il JSON grezzo in una vista frasi leggibile (le frasi si interrompono su silenzi ≥ 0.5s)
    3. Corregge ogni nome di prodotto o nome proprio tramite ricerca web — l'ASR fraintende spesso i nomi (es. "ScreenKite" trascritto come "Screencast"); nomi errati si propagano in tutti i sottotitoli e visual a valle
    4. Propone una lista di tagli con intervalli di tempo esatti e una ragione in linguaggio semplice per ogni taglio
    5. Aspetta la tua approvazione prima di toccare la timeline

    Gli stessi timestamp delle parole alimentano i sottotitoli generati. Quando un agente crea sottotitoli in ScreenKite, usa il provider di trascrizione Word-Level (Livello parola) configurato e importa un cue di sottotitolo per parola parlata invece di lunghi blocchi di frasi. Consulta Word-Level Generated Captions (Sottotitoli generati a livello parola) per la configurazione lato app.

    ⚠️

    I tagli della timeline non possono essere annullati tramite il CLI. L'agente mostra sempre la lista completa dei tagli e aspetta la tua conferma. Controllala — specialmente i limiti del primo e dell'ultimo.

    Prompt di esempio

    Open ~/Desktop/Recording.skbundle and transcribe + cut.
    Show me the cut plan first, don't touch the timeline yet.
    ElevenLabs key is in ~/.config/env/elevenlabs.env
    

    L'agente restituisce qualcosa come:

    [000.06–000.66]  "HelloPro."          → false start
    [002.14–002.56]  "Hello."             → second false start
    --- CUT [0 → 2.98s] ---
    [011.84–012.18]  "Uh,"                → filler      CUT [8.72–10.00]
    [043.60–045.16]  "And let's see."     → transition  CUT [40.48–42.60]
    
    Result: 58.8s → 51.2s
    Apply these 3 cuts?
    

    Rispondi yes e tutti i tagli vengono applicati in una sola chiamata tramite editTimeline(action: "cut", {ranges: [...]}).

    Cosa viene tagliato

    • Falsi inizi — tutto prima della vera prima frase (test del microfono, saluti ripetuti)
    • Parole di riempimento — "Ehm," "Um," "Tipo" isolate con sufficiente silenzio da entrambi i lati
    • Frasi di transizione — "E vediamo," "Ok quindi," "Comunque" che riempiono tra i punti narrativi

    L'agente non taglia mai a metà parola, imbottisce ogni bordo del taglio di 100–150ms dai confini delle parole e preferisce silenzi ≥ 400ms come obiettivi di taglio.


    Parte 2 — Generazione automatica di B-Roll

    Dopo i tagli, l'agente mappa la trascrizione su dei beat e genera un visual animato per ciascuno usando Hyperframes (HTML + GSAP → MP4). Ogni visual viene posizionato come layout di scena in ScreenKite con una transizione magicMove.

    Stili di layout

    Corner PiP — la registrazione dello schermo riempie il canvas, il B-Roll appare come accento in un angolo (40–42% di larghezza). Ideale per tutorial dove il contenuto dello schermo è la storia principale.

    Centered B-roll — la registrazione dello schermo si riduce in alto a sinistra (~38%), il B-Roll viene riprodotto al centro (~56% di larghezza). Ideale per presentazioni di prodotti dove il visual deve essere prominente.

    # Corner PiP (predefinito)
    claude "add B-roll with corner layout"
    
    # Centrato
    claude "add B-roll — minimize the screen to top left, B-roll centered, medium density, cute visuals"
    

    Cosa fa l'agente

    1. Mappatura dei beat — mappa le frasi della trascrizione tagliata su beat: nome del prodotto, funzionalità chiave, workflow, CTA
    2. Scelta della densità — propone Sparso (4), Medio (7) o Denso (10); mostra un menu di slot; aspetta la tua scelta
    3. Generazione in parallelo — invia un sub-agente per slot simultaneamente; ognuno scrive una composizione Hyperframes completa 1920×1080
    4. Render in serie — renderizza ogni slot in MP4 in sequenza (i Chrome paralleli corrompono i frame)
    5. Applicazione del DSL — chiama setSceneLayout per ogni finestra temporale con il layout scelto

    Il contratto visuale

    Ogni visual generato segue queste regole:

    • Contenuto a pieno frame — l'MP4 1920×1080 è il frame PiP; il contenuto lo riempie bordo a bordo (posizionare una piccola card all'interno di un frame per lo più vuoto la seppellisce in un angolo di un angolo)
    • Entrata → mantenimento → nessuna uscita interna — i visual entrano in animazione (0–1.5s), si stabilizzano in un mantenimento leggibile e si fermano. magicMove gestisce l'uscita. Le dissolvenze interne producono un doppio uscita rotto.
    • Tipografia grande — testo display 160–220px, corpo 48–72px; al 40–56% di larghezza rimane leggibile sullo schermo

    Pacchetti di densità

    PacchettoSlotSpaziaturaSensazione
    Sparso4~13s di distanzaPulito, documentaristico
    Medio7~7s di distanzaBilanciato (predefinito)
    Denso10~5s di distanzaEnergia da tutorial

    Prompt di esempio

    Recording is cut. Add B-roll:
    - Centered layout (screen top-left, B-roll center)
    - Medium density
    - Cute, warm visuals
    - All text in English
    

    Iterare su uno slot

    Slot 3 should show a Swift logo instead of the Apple emoji.
    Re-render slot 3 and re-apply.
    

    L'agente rigenera solo quello slot e riapplica la sua finestra DSL. Tutto il resto rimane.

    ⚠️

    Quando si riapplica una finestra di layout su una precedente più lunga, i segmenti "coda" residui possono continuare a riprodursi. L'agente li cancella automaticamente. Se applichi setSceneLayout manualmente e vedi che il B-Roll va troppo a lungo, chiama setSceneLayout con mode: "pictureInPicture" sull'intervallo di coda per cancellarlo.


    Mettere tutto insieme

    # 1. Avvia Claude Code nella tua cartella di progetto
    claude
    
    # 2. Taglio della trascrizione
    "Open ~/Desktop/Recording.skbundle. Transcribe and plan cuts. ElevenLabs key at ~/.config/env/elevenlabs.env"
    # → controlla la lista dei tagli → "yes"
    
    # 3. B-roll
    "Add B-roll — centered layout, medium density, cute English visuals"
    # → controlla il menu a 7 slot → "Medium, looks good"
    # → l'agente genera in parallelo, renderizza in serie, applica DSL (~3 min)
    
    # 4. Controllo spot
    "Show me slot 4 at 18s"
    # → scorri in ScreenKite
    
    # 5. Modifica se necessario
    "Slot 4 — change the node diagram to use mint green for all nodes"
    

    Tempo di gestione manuale: meno di 5 minuti. Tempo di rendering: ~2–3 minuti per 7 slot.

    Per altri workflow, prompt di esempio e competenze della community: github.com/ScreenKite/awesome-ai-video-editing

    Precedente

    ← Cornici dei dispositivi

    Successivo

    Sottotitoli generati a livello parola→