In einem älteren Tool-Tipp-Artikel haben wir bereits ein für Windows kostenloses, datenschutzfreundliches Open-Source-Tool, um Audios zu transkribieren, vorgestellt: das Whisper-Plugin für den Audioeditor und -rekorder "Audacity".
Ein weiteres kostenloses Tool, um auf einem Windows-Rechner Audios in Text umzuwandeln, ist noScribe. Dieses Tool ist ebenfalls eine Open-Source-Software. Die Software nutzt die KI Whisper von OpenAI, um Text zu transkribieren, und die KI Pyannote AI, um zwischen verschiedenen, sprechenden Personen zu unterscheiden. Die Software kann die Sprache von Audios als auch von Videos in Text umwandeln. Ergänzt wird das Tool mit einem eigenen Editor. Damit kann man den transkribierten Text direkt nachbearbeiten, ohne ein extra Programm zu benutzen.
In unserem Test waren die Transkriptionsergebnisse bereits mit der Standardeinstellung qualitativ überzeugend. Man musste sehr wenig (z.B. falsch geschriebene Namen) im Editor verbessern. Das Ergebnis einer Transkription hängt aber auch davon ab, wie gut die Sprachqualität (Sprechgeschwindigkeit, Akzent, Dialekt, Klarheit) der sprechenden Person und die Qualität der Aufnahme (Hintergrundgeräusche) ist.
noScribe läuft lokal auf dem Rechner. Das bedeutet, eine Audio-/Videodatei wird lokal auf dem Rechner verarbeitet und transkribiert. Im Gegensatz zu anderen Transkriptions-Tools, die einen Server im Internet nutzen. Das Tool kann man somit für sensible Daten benutzen.
Die Installation und die Benutzung der Software noScribe ist einfach. Das macht sie interessant für eine breite Zielgruppe.
noScribe gibt es für die Betriebssysteme Windows, Mac und Linux. Hier stellen wir noScribe für Windows vor.
Installation von noScribe
- Aktuelle und passende Installationsdatei unter "Download and Installation", im Abschnitt "Windows" hier herunterladen.
- Nutzt man einen Rechner ohne NVIDIA-Grafikkarte, lädt man die Standard-Installationsdatei für Windows mit dem Namen "general purpose version for normal PCs without a NVIDIA graphics card" herunter.
Audio/Video transkribieren: Vorbereitungen
Datei und Speicherort auswählen
- Audiodatei auswählen: → Ordner-Symbol neben dem Feld "Audiodatei" → gewünschte Datei antippen → Öffnen
- Speicherort der Transkription auswählen: → Ordner-Symbol neben dem Feld "Transkript speichern unter" → Speicherort wählen → Namen anklicken, um diesen zu ändern → Speichern
Einstellungen für die Transkription vornehmen
Im Menü auf der linken Seite gibt es folgende Einstellungen, die man ändern kann. Die Standardeinstellungen sind schon ausreichend. Möchte man die Transkription als Untertitel nutzen, sollte man den Haken bei "Zeitmarken" setzen.
Start- und Endzeit
- eingeben, wenn man nur einen bestimmten Ausschnitt eines Audios/ Videos transkribieren möchte. (Eingabe im Format "hh:mm:ss", z.B. 00:01:22)
- Standardeinstellung belassen, wenn man die gesamte Datei transkribieren möchte. (Standardeinstellung: Start 00:00:00 und Ende ein leeres Feld)
Sprache
- Die Standardeinstellung "Auto" erkennt automatisch die gesprochene Sprache im Audio/Video. Anstelle von "Auto" kann man auch die passende Sprache auswählen.
Modell
- Mit dem Transkriptions-Modell wählt man die Qualität der Transkription aus. Die Standardeinstellung "precise" liefert sehr gute Ergebnisse. Man muss nur an wenigen Stellen wie z.B. bei falsch verstanden Namen nachbessern. Hat man einen nicht so leistungsfähigen Computer, sollte man das Modell "fast" wählen. Möchte man noch eine bessere Transkriptionsqualität, kann man weitere Modelle herunterladen und dem Programm hinzufügen.
Pause markieren
- Pausen länger als 1 Sekunde werden standardmäßig markiert.
- Im Transkript werden Pausen mit Punkten in einer Klammer dargestellt. 1 Sekunde = 1 Punkt. Zum Beispiel: 3 Sekunden Pause = (...). Ab 10 Sekunden ist die Darstellung: "(XX seconds pause)" bzw. "(XX minutes pause)".
- Möchte man keine markierte Pause, muss man "none" auswählen
Sprecher:in erkennen
- Standardeinstellung ist "auto". Die Anzahl der sprechenden Personen wird automatisch erkannt. Man kann aber auch eine konkrete Zahl an sprechenden Personen auswählen.
- Der transkribierte Text wird in einem Block dargestellt, wenn man "none" auswählt. Die Transkription läuft dann schneller und braucht weniger Arbeitsspeicher.
Überlappende Sprache
- Haken setzen, um die Funktion zu aktivieren. Wenn zwei Personen gleichzeitig sprechen, wird der transkribierte Text mit zwei Schrägstrichen markiert.
Füllworte
- Haken setzen, um die Funktion zu aktivieren. Füllworte wie äh, hm und unvollendete Wörter/Sätze werden dann transkribiert.
Zeitmarken
- Möchte man den transkribierten Text als Untertitel nutzen, muss man bei Zeitmarken einen Haken setzen.
Transkription starten
Mit dem Transkribieren beginnen/ Transkription starten: → Start
Die Transkription wird automatisch als html-Datei gespeichert. Diese Datei kann man später in noScribe über die Editor-Funktion aufrufen.
Transkription mit dem noScribe Editor nachbearbeiten
Der transkribierte Text öffnet sich automatisch im Editor-Fenster von noScribe, sobald die Transkription beendet ist. Alternativ kann man im noScribe-Fenster "Editor" rechts unten anklicken, um die Transkription zu öffnen.
Im Editor gibt es eine nützliche Funktion. Man kann die Audiodatei abspielen, um den transkribierten Text mit dem Audio zu vergleichen.
Transkribierten Text mit Audiodatei vergleichen und verbessern:
- Audio abspielen: → "Play/Pause Audio"-Taste anklicken → der Text, der abgespielt wird, wird blau markiert
- Text bearbeiten: → in den Text klicken und Fehler korrigieren
Transkription als Untertitel exportieren
Nach der Nachbearbeitung kann man den transkribierten Text als Untertitel-Datei oder Textdatei speichern: → File → Save as → Dateityp anklicken → passendes Format auswählen:
- als Textdatei speichern: → Text only (*txt)
- als Untertitel-Datei speichern: → WebVTT Subtitles (also for EXMARaLDA) (*.vtt)
→ Speichern





