Dans ScreenKite, les sous-titres générés sont au niveau du mot. Au lieu de créer un seul long bloc de sous-titres pour une phrase complète ou un clip, ScreenKite crée un repère de sous-titre par mot prononcé. Cela fournit à l'éditeur les données de synchronisation nécessaires pour des révélations de sous-titres courtes de style Screen Studio et des flux de travail précis pour les agents.
Avant de générer des sous-titres
Ouvrez Settings (Réglages) -> Transcription et configurez l'onglet Word-Level (Niveau mot) :
- Choisissez Automatic (Automatique) pour la configuration normale. ScreenKite utilise ElevenLabs lorsqu'une clé API est configurée, puis repasse à un modèle WhisperKit téléchargé.
- Choisissez ElevenLabs si vous souhaitez utiliser les synchronisations de mots hébergées de Scribe.
- Choisissez Local si vous souhaitez obtenir les horodatages au niveau du mot sur l'appareil à partir d'un modèle WhisperKit téléchargé.
OpenAI, Groq et Azure OpenAI ne sont pas utilisés pour la synchronisation des sous-titres générés. Ils peuvent toujours être configurés sous Text & Export (Texte & Export) pour le nettoyage par IA, la relecture ou les flux d'exportation explicite de transcriptions.
Validation de la clé ElevenLabs
Après avoir saisi une clé API sous ElevenLabs, cliquez sur Test Key (Tester la clé) pour la vérifier. Le résultat s'affiche en ligne à côté du bouton :
| Étiquette | Cause |
|---|---|
| Valid for Speech to Text | La clé est acceptée et possède la portée (scope) requise. |
| Invalid API key | HTTP 401 — la clé est malformée, révoquée ou appartient à un espace de travail différent. |
| Key needs ElevenLabs Speech to Text permission | HTTP 403 — la clé existe mais ne dispose pas de la portée requise. Ouvrez le tableau de bord d'ElevenLabs et mettez à jour les portées de votre clé API pour inclure l'accès Speech to Text. |
| Avertissement orange (ex. "ElevenLabs rate limit reached. Try again later.") | HTTP 429 — vous avez atteint la limite de taux (rate limit) d'ElevenLabs. Attendez un moment et réessayez. |
La limite de taux et les autres messages transitoires peuvent s'afficher sur plusieurs lignes — l'étiquette s'étend verticalement pour afficher le texte complet.
Générer des sous-titres
- Ouvrez un projet
.skbundledans l'éditeur de projet. - Assurez-vous que le projet contient de l'audio provenant du microphone, de remplacement ou principal.
- Utilisez l'action de génération de sous-titres dans l'éditeur ou demandez à un agent de générer des sous-titres.
- ScreenKite transcrit l'audio avec le fournisseur au niveau du mot configuré.
- ScreenKite importe un fichier SRT où chaque repère correspond à un mot prononcé.
Le résultat est une piste de sous-titres composée de courts clips calés sur les mots plutôt que de blocs de la longueur d'une phrase. Si le fournisseur ne renvoie aucune parole, ScreenKite signale qu'aucune parole n'a été détectée. Si le fournisseur ne renvoie que des segments de phrase sans horodatage des mots, la génération des sous-titres s'arrête au lieu de créer de longs sous-titres approximatifs.
Flux de travail de l'agent
Les agents utilisent le même chemin de sous-titrage au niveau du mot que l'application. Un prompt peut être aussi direct que :
codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
Pour les coupes de transcription, le nettoyage des mots de remplissage ou la planification de B-roll, l'agent peut réutiliser les mêmes horodatages de mots afin que les coupes et les rythmes visuels restent alignés avec la parole.
Pour déclencher la génération de sous-titres sans terminal, utilisez l'Assistant Chat IA intégré — il a accès aux mêmes outils de sous-titrage et nécessite uniquement un prompt textuel dans le panneau de chat.
Comportement de la timeline
Les sous-titres générés apparaissent sur une piste Captions (Sous-titres) dans la timeline. Comme chaque mot possède son propre repère, vous pouvez inspecter et modifier la synchronisation à la granularité du mot.
Consultez Timeline & Tracks (Timeline et pistes) pour les bases de la navigation dans les pistes, et Agentic Video Editing pour les flux de travail de montage basés sur la transcription.