Tool-Tipps | barrierefrei kommunizieren! | Außerschulische Angebote

In einem älteren Tool-Tipp-Artikel haben wir bereits ein für Windows kostenloses, datenschutzfreundliches Open-Source-Tool, um Audios zu transkribieren, vorgestellt: das Whisper-Plugin für den Audioeditor und -rekorder "Audacity".

Ein weiteres kostenloses Tool, um auf einem Windows-Rechner Audios in Text umzuwandeln, ist noScribe. Dieses Tool ist ebenfalls eine Open-Source-Software. Die Software nutzt die KI Whisper von OpenAI, um Text zu transkribieren, und die KI Pyannote AI, um zwischen verschiedenen, sprechenden Personen zu unterscheiden. Die Software kann die Sprache von Audios als auch von Videos in Text umwandeln. Ergänzt wird das Tool mit einem eigenen Editor. Damit kann man den transkribierten Text direkt nachbearbeiten, ohne ein extra Programm zu benutzen.

In unserem Test waren die Transkriptionsergebnisse bereits mit der Standardeinstellung qualitativ überzeugend. Man musste sehr wenig (z.B. falsch geschriebene Namen) im Editor verbessern. Das Ergebnis einer Transkription hängt aber auch davon ab, wie gut die Sprachqualität (Sprechgeschwindigkeit, Akzent, Dialekt, Klarheit) der sprechenden Person und die Qualität der Aufnahme (Hintergrundgeräusche) ist.

noScribe läuft lokal auf dem Rechner. Das bedeutet, eine Audio-/Videodatei wird lokal auf dem Rechner verarbeitet und transkribiert. Im Gegensatz zu anderen Transkriptions-Tools, die einen Server im Internet nutzen. Das Tool kann man somit für sensible Daten benutzen.

Die Installation und die Benutzung der Software noScribe ist einfach. Das macht sie interessant für eine breite Zielgruppe.

noScribe gibt es für die Betriebssysteme Windows, Mac und Linux. Hier stellen wir noScribe für Windows vor.

Installation von noScribe

Aktuelle und passende Installationsdatei unter "Download and Installation", im Abschnitt "Windows" hier herunterladen.
Nutzt man einen Rechner ohne NVIDIA-Grafikkarte, lädt man die Standard-Installationsdatei für Windows mit dem Namen "general purpose version for normal PCs without a NVIDIA graphics card" herunter.

Audio/Video transkribieren: Vorbereitungen

Datei und Speicherort auswählen

Audiodatei auswählen: → Ordner-Symbol neben dem Feld "Audiodatei" → gewünschte Datei antippen → Öffnen
Speicherort der Transkription auswählen: → Ordner-Symbol neben dem Feld "Transkript speichern unter" → Speicherort wählen → Namen anklicken, um diesen zu ändern → Speichern

Einstellungen für die Transkription vornehmen

Im Menü auf der linken Seite gibt es folgende Einstellungen, die man ändern kann. Die Standardeinstellungen sind schon ausreichend. Möchte man die Transkription als Untertitel nutzen, sollte man den Haken bei "Zeitmarken" setzen.

Start- und Endzeit

eingeben, wenn man nur einen bestimmten Ausschnitt eines Audios/ Videos transkribieren möchte. (Eingabe im Format "hh:mm:ss", z.B. 00:01:22)
Standardeinstellung belassen, wenn man die gesamte Datei transkribieren möchte. (Standardeinstellung: Start 00:00:00 und Ende ein leeres Feld)

Sprache

Die Standardeinstellung "Auto" erkennt automatisch die gesprochene Sprache im Audio/Video. Anstelle von "Auto" kann man auch die passende Sprache auswählen.

Modell

Mit dem Transkriptions-Modell wählt man die Qualität der Transkription aus. Die Standardeinstellung "precise" liefert sehr gute Ergebnisse. Man muss nur an wenigen Stellen wie z.B. bei falsch verstanden Namen nachbessern. Hat man einen nicht so leistungsfähigen Computer, sollte man das Modell "fast" wählen. Möchte man noch eine bessere Transkriptionsqualität, kann man weitere Modelle herunterladen und dem Programm hinzufügen.

Pause markieren

Pausen länger als 1 Sekunde werden standardmäßig markiert.
Im Transkript werden Pausen mit Punkten in einer Klammer dargestellt. 1 Sekunde = 1 Punkt. Zum Beispiel: 3 Sekunden Pause = (...). Ab 10 Sekunden ist die Darstellung: "(XX seconds pause)" bzw. "(XX minutes pause)".
Möchte man keine markierte Pause, muss man "none" auswählen

Sprecher:in erkennen

Standardeinstellung ist "auto". Die Anzahl der sprechenden Personen wird automatisch erkannt. Man kann aber auch eine konkrete Zahl an sprechenden Personen auswählen.
Der transkribierte Text wird in einem Block dargestellt, wenn man "none" auswählt. Die Transkription läuft dann schneller und braucht weniger Arbeitsspeicher.

Überlappende Sprache

Haken setzen, um die Funktion zu aktivieren. Wenn zwei Personen gleichzeitig sprechen, wird der transkribierte Text mit zwei Schrägstrichen markiert.

Füllworte

Haken setzen, um die Funktion zu aktivieren. Füllworte wie äh, hm und unvollendete Wörter/Sätze werden dann transkribiert.

Zeitmarken

Möchte man den transkribierten Text als Untertitel nutzen, muss man bei Zeitmarken einen Haken setzen.

Transkription starten

Mit dem Transkribieren beginnen/ Transkription starten: → Start
Die Transkription wird automatisch als html-Datei gespeichert. Diese Datei kann man später in noScribe über die Editor-Funktion aufrufen.

Transkription mit dem noScribe Editor nachbearbeiten

Der transkribierte Text öffnet sich automatisch im Editor-Fenster von noScribe, sobald die Transkription beendet ist. Alternativ kann man im noScribe-Fenster "Editor" rechts unten anklicken, um die Transkription zu öffnen.

Im Editor gibt es eine nützliche Funktion. Man kann die Audiodatei abspielen, um den transkribierten Text mit dem Audio zu vergleichen.

Transkribierten Text mit Audiodatei vergleichen und verbessern:

Audio abspielen: → "Play/Pause Audio"-Taste anklicken → der Text, der abgespielt wird, wird blau markiert
Text bearbeiten: → in den Text klicken und Fehler korrigieren

Transkription als Untertitel exportieren

Nach der Nachbearbeitung kann man den transkribierten Text als Untertitel-Datei oder Textdatei speichern: → File → Save as → Dateityp anklicken → passendes Format auswählen:

als Textdatei speichern: → Text only (*txt)
als Untertitel-Datei speichern: → WebVTT Subtitles (also for EXMARaLDA) (*.vtt)

→ Speichern

tjfbg - Technische Jugendfreizeit und Bildungsgesellschaft

noScribe: Untertitel und Transkripte erstellen