pCloud

(WhatsApp-)Sprachnachrichten transkribieren

Das Thema lässt mich noch nicht los. Das ganz fantastische Just Press Record – das sich vor zwei Wochen ein dreispaltiges iPad-Layout leistete – verschriftlicht alle Audiodateien, die ihr in seinem iCloud-Ordner ablegt.

So etwas funktioniert dann beispielsweise auch für WhatsApp-Sprachnachrichten. Ein langer Druck auf empfangene Audiodateien führt in der Chat-App zur Option „Weiterleiten“ und anschließend ins Teilen-Menü (unten rechts).

Über „In Dateien sichern“ speichert ihr die M4a-Datei im „Just Press Record“-Ordner. Wenn ihr diese Datei dann in der Diktat-Software öffnet, drückt ihr ebenfalls lange mit dem Finger auf das File und wählt „Transkription“.

Über die „Just Press Record“-Einstellungen legt ihr die „Transkriptions-Sprache“ fest. Die Software benutzt Apples „Speech-to-text“-Feature, das bis zu 30 Sprachen versteht.

Die Erkennung ist hinreichend gut, um mindestens Stichwörter in allen Sprachnotizen zu suchen. Oft ist aber auch der gesamte Text absolut verständlich in Worte gefasst.

Apples „Sprache-zu-Text“-Funktion holpert jedoch (ausgerechnet) am eigenen Accessibility-Feature „Bildschirminhalt sprechen“ (➝ Bedienungshilfen ➝ Gesprochene Inhalte). Streicht man mit zwei Fingern vom oberen Bildschirmrand nach unten, liest iOS den Text auf dem Screen vor. Wenn ich das anstoße und ein zweites iPhone zur Aufnahme davor halte, erfolgt im Anschluss oft keine sinnvolle Transkription (obwohl die Aufnahmen sich für mich absolut verständlich anhören).

Das „Just Press Record“-Team vermutet, dass die Audioaufnahmen dieser synthetischen Stimme „not human enough“ klingen. Je nach Sprache und Text, kann es einen Unterschied machen, wenn man die Stimmen tauscht (➝ Bedienungshilfen ➝ Gesprochene Hinhalte ➝ Stimmen).

Anyway. Bei allen Diktaten, die tatsächlich Menschen einsprachen, klappte dieser Weg der Transkription ausserordentlich gut.