Fish.audio: moderne Sprachsynthese ausprobieren

5. Juni 2025 – 13:55 Uhr

Vor zwei Jahren dauerte es „rund 15 Minuten“ bis ich unzählige englischsprachige Sätze für die persönliche KI-Stimme eingesprochen hatte. 20 weitere Stunden später konnte ich sie dann verwenden.

In ihrer Ankündigung zu den diesjährigen Accessibility-Funktionen will Apple eure Anstrengungen auf „weniger als eine Minute mit nur zehn aufgezeichneten Phrasen“ eingestampft haben.

Für Menschen mit dem Risiko, ihre Sprechfähigkeit zu verlieren, wird „Eigene Stimme“ schneller, einfacher und leistungsfähiger denn je. Dank Fortschritten beim maschinellen Lernen und der künstlichen Intelligenz auf dem Gerät kann in weniger als einer Minute mit nur zehn aufgezeichneten Phrasen eine flüssigere, natürlicher klingende Stimme erstellt werden. „Eigene Stimme“ wird auch Spanisch unterstützen.

„State-of-the-Art in Voice Synthesis“ ist aktuell OpenAudio S1 – auszuprobieren unter https://fish.audio/. Wenn ihr euch dort ein Konto klickt und eine 30-sekündige Audiodatei der eigenen (deutschsprachigen) Stimme hochladet, fallen euch bei der direkt erzeugten „Audioprobe“ wahrscheinlich die AirPods aus den Ohren.

Die Audioqualität beeindruckt, weil’s so verdammt schnell geht und lediglich einen kurzen Audioschnipsel benötigt. Aber hinzu kommt: Eine Stunde Audio kostet lediglich einen US-Dollar.

Das Bild zeigt zwei Smartphones mit einer Benutzeroberfläche für eine Anwendung zur Sprachsynthese. Auf der linken Seite wird die Funktion „Voice Cloning“ hervorgehoben, während auf der rechten Seite Optionen zur Erstellung einer neuen Stimme angezeigt werden. Beide Bildschirme sind in einem modernen und ansprechenden Design gehalten, begleitet von grafischen Wellen im Hintergrund.