Generierte Untertitel (Captions) in ScreenKite erfolgen auf Wortebene. Anstatt einen einzigen langen Untertitel-Block für einen ganzen Satz oder Clip zu erstellen, erstellt ScreenKite ein Untertitel-Cue (Segment) pro gesprochenem Wort. Dadurch erhält der Editor die Timing-Daten, die er für kurze Einblendungen im Stil von Screen Studio und präzise Agenten-Workflows benötigt.
Bevor du Untertitel generierst
Öffne Settings (Einstellungen) -> Transcription (Transkription) und konfiguriere den Unter-Reiter Word-Level (Wortebene):
- Wähle Automatic (Automatisch) für das Standard-Setup. ScreenKite verwendet ElevenLabs, wenn ein API-Key konfiguriert ist, und weicht andernfalls auf ein heruntergeladenes WhisperKit-Modell aus.
- Wähle ElevenLabs, wenn du gehostete Scribe-Wort-Timings nutzen möchtest.
- Wähle Local (Lokal), wenn du geräteinterne WhisperKit-Wort-Zeitstempel von einem heruntergeladenen Modell verwenden möchtest.
OpenAI, Groq und Azure OpenAI werden nicht für das Timing generierter Untertitel verwendet. Sie können weiterhin unter Text & Export für KI-Bereinigungen, Korrekturlesen oder explizite Transkript-Export-Workflows konfiguriert werden.
Validierung des ElevenLabs-Keys
Klicke nach der Eingabe eines API-Keys unter ElevenLabs auf Test Key (Key testen), um ihn zu verifizieren. Das Ergebnis wird direkt neben der Schaltfläche angezeigt:
| Anzeige | Ursache |
|---|---|
| Valid for Speech to Text | Der Key wird akzeptiert und verfügt über die erforderliche Berechtigung (Scope). |
| Invalid API key | HTTP 401 — Key ist fehlerhaft, widerrufen oder gehört zu einem anderen Arbeitsbereich. |
| Key needs ElevenLabs Speech to Text permission | HTTP 403 — Key existiert, aber es fehlt die erforderliche Berechtigung. Öffne das ElevenLabs-Dashboard und aktualisiere die Berechtigungen deines API-Keys, um den Zugriff auf Speech to Text einzuschließen. |
| Orangefarbene Warnung (z. B. „ElevenLabs rate limit reached. Try again later.“) | HTTP 429 — Du hast das ElevenLabs-Ratenlimit erreicht. Warte einen Moment und teste erneut. |
Das Ratenlimit und andere temporäre Meldungen können sich über mehrere Zeilen erstrecken — die Anzeige vergrößert sich vertikal, um den vollständigen Text anzuzeigen.
Untertitel generieren
- Öffne ein
.skbundle-Projekt im Projekt-Editor. - Stelle sicher, dass das Projekt Mikrofon-, Ersatz- oder Haupt-Audio enthält.
- Verwende die Aktion zur Untertitelgenerierung im Editor oder bitte einen Agenten, Untertitel zu generieren.
- ScreenKite transkribiert das Audio mit dem konfigurierten Anbieter auf Wortebene.
- ScreenKite importiert eine SRT-Datei, bei der jedes Cue einem gesprochenen Wort entspricht.
Das Ergebnis ist eine Untertitelspur, die aus kurzen, wortgenauen Clips anstelle von satzlangen Blöcken besteht. Wenn der Anbieter keine Sprache zurückgibt, meldet ScreenKite, dass keine Sprache erkannt wurde. Wenn der Anbieter nur Satzsegmente ohne Wort-Zeitstempel liefert, stoppt die Untertitelgenerierung, anstatt ungenaue lange Untertitel zu erstellen.
Agenten-Workflow
Agenten verwenden denselben Pfad für Untertitel auf Wortebene wie die App. Ein Prompt kann so direkt sein wie:
codex "Open ~/Desktop/Recording.skbundle and generate word-level captions from the microphone track"
Für Transkriptionsschnitte, das Bereinigen von Füllwörtern oder die B-Roll-Planung kann der Agent dieselben Wort-Zeitstempel wiederverwenden, sodass Schnitte und visuelle Beats mit der Sprache synchron bleiben.
Um die Untertitelgenerierung ohne Terminal auszulösen, verwende den integrierten AI Chat Assistant — er hat Zugriff auf dieselben Untertitel-Tools und benötigt nur einen Text-Prompt im Chat-Panel.
Verhalten der Timeline
Generierte Untertitel erscheinen auf einer Captions-Spur (Untertitel) in der Timeline. Da jedes Wort sein eigenes Cue hat, kannst du das Timing wortgenau prüfen und bearbeiten.
Verwende Timeline & Tracks für die Grundlagen der Spurnavigation und Agentic Video Editing für transkriptgestützte Bearbeitungs-Workflows.