ScreenKiteScreenKite|Guida
    • Installazione di ScreenKite
    • Requisiti di sistema
    • Configurazione delle autorizzazioni
    • Nuova registrazione
    • Registrazione dello schermo intero
    • Registrazione di una finestra
    • Registrazione di un'area
    • Webcam e microfono
    • Audio di sistema
    • Registrazione di dispositivi iOS
    • Scorciatoie da tastiera
    • Condivisione degli screenshot
    • Auto-zoom
    • Configurazione delle impostazioni di zoom
    • Panoramica dell'Editor di progetto
    • Timeline e tracce
    • Ritaglio e divisione
    • Personalizzazione dell'aspetto
    • Cornici dei dispositivi
    • Agentic Video Editing
    • Sottotitoli generati a livello parola
    • Qualità dell'anteprima
    • Assistente Chat IA
    • Impostazioni dell'editor
    • Impostazioni di esportazione
    • Esportazione in Final Cut Pro (FCPXML)
    • Problemi comuni
    • Autorizzazioni e accesso
    ← Home page di ScreenKite
    Guida/Modifica

    Sottotitoli generati a livello parola

    I sottotitoli generati in ScreenKite sono a livello di parola. Invece di creare un unico lungo blocco di sottotitoli per un'intera frase o clip, ScreenKite crea un cue di sottotitolo per ogni parola pronunciata. Ciò fornisce all'editor i dati temporali di cui ha bisogno per la comparsa di brevi sottotitoli in stile Screen Studio e per workflow precisi dell'agente.

    Prima di generare i sottotitoli

    Apri Impostazioni -> Trascrizione e configura la scheda Word-Level:

    1. Scegli Automatic per la configurazione standard. ScreenKite utilizza ElevenLabs quando è configurata una chiave API, quindi passa a un modello WhisperKit scaricato in caso di fallback.
    2. Scegli ElevenLabs quando desideri i tempi delle parole Scribe in cloud.
    3. Scegli Local quando desideri timestamp di parole WhisperKit sul dispositivo da un modello scaricato.

    OpenAI, Groq e Azure OpenAI non sono utilizzati per la tempistica dei sottotitoli generati. Possono comunque essere configurati in Text & Export per la correzione tramite IA, la rilettura o workflow di esportazione esplicita della trascrizione.

    ✅

    Per sottotitoli generati più affidabili, registra la narrazione del microfono su una traccia dedicata. ScreenKite può anche generare sottotitoli dall'audio principale o sostitutivo quando l'audio del microfono non è disponibile.

    Validazione della chiave ElevenLabs

    Dopo aver inserito una chiave API in ElevenLabs, fai clic su Test Key per verificarla. Il risultato appare in linea accanto al pulsante:

    EtichettaCausa
    Valid for Speech to TextLa chiave è accettata e dispone dello scope richiesto.
    Invalid API keyHTTP 401 — la chiave è malformata, revocata o appartiene a uno spazio di lavoro diverso.
    Key needs ElevenLabs Speech to Text permissionHTTP 403 — la chiave esiste ma manca dello scope richiesto. Apri la dashboard di ElevenLabs e aggiorna gli scope della tua chiave API per includere l'accesso a Speech to Text.
    Avviso arancione (es. "ElevenLabs rate limit reached. Try again later.")HTTP 429 — hai raggiunto il limite di frequenza (rate limit) di ElevenLabs. Attendi un momento e riprova.

    Il limite di frequenza e altri messaggi temporanei possono andare a capo su più righe — l'etichetta si espande verticalmente per mostrare il testo completo.

    ✅

    Se hai eliminato un modello WhisperKit scaricato in precedenza e il badge di stato mostra Model not downloaded, apri Impostazioni -> Trascrizione -> Word-Level, seleziona il modello dal selettore e fai clic su Download Selected Model per ripristinarlo.

    Generazione dei sottotitoli

    1. Apri un progetto .skbundle nell'Editor di progetto.
    2. Assicurati che il progetto contenga audio del microfono, audio principale o audio sostitutivo.
    3. Usa l'azione di generazione dei sottotitoli nell'editor o chiedi a un agente di generarli.
    4. ScreenKite trascrive l'audio utilizzando il provider a livello di parola configurato.
    5. ScreenKite importa un file SRT in cui ogni cue corrisponde a una parola pronunciata.

    Il risultato è una traccia di sottotitoli composta da brevi clip sincronizzati a livello di singola parola anziché da blocchi lunghi quanto un'intera frase. Se il provider non restituisce alcun parlato, ScreenKite segnala che non è stato rilevato alcun discorso. Se il provider restituisce solo segmenti di frasi senza timestamp delle singole parole, la generazione dei sottotitoli si interrompe invece di creare sottotitoli lunghi approssimativi.

    Workflow dell'agente

    Gli agenti utilizzano lo stesso percorso per i sottotitoli a livello di parola dell'app. Un prompt può essere diretto come:

    codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
    

    Per i tagli della trascrizione, la rimozione delle parole di riempimento o la pianificazione del B-roll, l'agente può riutilizzare gli stessi timestamp delle parole in modo che i tagli e i beat visivi rimangano allineati con il parlato.

    Per attivare la generazione dei sottotitoli senza terminale, usa l'incorporato Assistente Chat IA — ha accesso agli stessi strumenti per i sottotitoli e richiede solo un prompt di testo nel pannello di chat.

    Comportamento della timeline

    I sottotitoli generati appaiono su una traccia Captions nella timeline. Poiché ogni parola ha il suo cue dedicato, puoi ispezionare e modificare la tempistica con la granularità della singola parola.

    Usa Timeline e tracce per le basi della navigazione delle tracce, e Editing video con agenti IA per i workflow di editing basati sulla trascrizione.

    Precedente

    ← Agentic Video Editing

    Successivo

    Qualità dell'anteprima→