I sottotitoli generati in ScreenKite sono a livello di parola. Invece di creare un unico lungo blocco di sottotitoli per un'intera frase o clip, ScreenKite crea un cue di sottotitolo per ogni parola pronunciata. Ciò fornisce all'editor i dati temporali di cui ha bisogno per la comparsa di brevi sottotitoli in stile Screen Studio e per workflow precisi dell'agente.
Prima di generare i sottotitoli
Apri Impostazioni -> Trascrizione e configura la scheda Word-Level:
- Scegli Automatic per la configurazione standard. ScreenKite utilizza ElevenLabs quando è configurata una chiave API, quindi passa a un modello WhisperKit scaricato in caso di fallback.
- Scegli ElevenLabs quando desideri i tempi delle parole Scribe in cloud.
- Scegli Local quando desideri timestamp di parole WhisperKit sul dispositivo da un modello scaricato.
OpenAI, Groq e Azure OpenAI non sono utilizzati per la tempistica dei sottotitoli generati. Possono comunque essere configurati in Text & Export per la correzione tramite IA, la rilettura o workflow di esportazione esplicita della trascrizione.
Validazione della chiave ElevenLabs
Dopo aver inserito una chiave API in ElevenLabs, fai clic su Test Key per verificarla. Il risultato appare in linea accanto al pulsante:
| Etichetta | Causa |
|---|---|
| Valid for Speech to Text | La chiave è accettata e dispone dello scope richiesto. |
| Invalid API key | HTTP 401 — la chiave è malformata, revocata o appartiene a uno spazio di lavoro diverso. |
| Key needs ElevenLabs Speech to Text permission | HTTP 403 — la chiave esiste ma manca dello scope richiesto. Apri la dashboard di ElevenLabs e aggiorna gli scope della tua chiave API per includere l'accesso a Speech to Text. |
| Avviso arancione (es. "ElevenLabs rate limit reached. Try again later.") | HTTP 429 — hai raggiunto il limite di frequenza (rate limit) di ElevenLabs. Attendi un momento e riprova. |
Il limite di frequenza e altri messaggi temporanei possono andare a capo su più righe — l'etichetta si espande verticalmente per mostrare il testo completo.
Generazione dei sottotitoli
- Apri un progetto
.skbundlenell'Editor di progetto. - Assicurati che il progetto contenga audio del microfono, audio principale o audio sostitutivo.
- Usa l'azione di generazione dei sottotitoli nell'editor o chiedi a un agente di generarli.
- ScreenKite trascrive l'audio utilizzando il provider a livello di parola configurato.
- ScreenKite importa un file SRT in cui ogni cue corrisponde a una parola pronunciata.
Il risultato è una traccia di sottotitoli composta da brevi clip sincronizzati a livello di singola parola anziché da blocchi lunghi quanto un'intera frase. Se il provider non restituisce alcun parlato, ScreenKite segnala che non è stato rilevato alcun discorso. Se il provider restituisce solo segmenti di frasi senza timestamp delle singole parole, la generazione dei sottotitoli si interrompe invece di creare sottotitoli lunghi approssimativi.
Workflow dell'agente
Gli agenti utilizzano lo stesso percorso per i sottotitoli a livello di parola dell'app. Un prompt può essere diretto come:
codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
Per i tagli della trascrizione, la rimozione delle parole di riempimento o la pianificazione del B-roll, l'agente può riutilizzare gli stessi timestamp delle parole in modo che i tagli e i beat visivi rimangano allineati con il parlato.
Per attivare la generazione dei sottotitoli senza terminale, usa l'incorporato Assistente Chat IA — ha accesso agli stessi strumenti per i sottotitoli e richiede solo un prompt di testo nel pannello di chat.
Comportamento della timeline
I sottotitoli generati appaiono su una traccia Captions nella timeline. Poiché ogni parola ha il suo cue dedicato, puoi ispezionare e modificare la tempistica con la granularità della singola parola.
Usa Timeline e tracce per le basi della navigazione delle tracce, e Editing video con agenti IA per i workflow di editing basati sulla trascrizione.