Google hat jetzt seinen auf KI-Technik und Machine-Learning aufbauenden Sprachcodec Lyra als Open Source veröffentlicht. Den Lyra-Codec hatte der Konzern schon im Februar 2021 vorgestellt und ihn als “revolutionären neuen Audio-Codec” beschrieben, mit dem sich qualitativ hochwertige Anrufe realisieren lassen sollen. In der Tat schafft Lyra die Kodierung von Sprache mit nur 3 kbit/s.

Optimierter Code für Smartphones

Der nun als Open-Source-Software verfügbare Code zur Nutzung enthält alle notwendigen Werkzeuge, um selbst Sprache mit Lyra zu kodieren und zu dekodieren.

Der Code ist für 64-Bit-ARM-Plattformen optimiert, wie sie etwa für Smartphones üblich sind. Außerdem wird für die Entwicklung Linux genutzt. In Zukunft hofft das Team von Lyra aber auch, den Codec plattformübergreifend umsetzen zu können.

Lyra ist in C++ geschrieben und nutzt Googles Build-Tool Bazel und auch die eigene C++-Bibliothek Abseil. Die Basis-API ermöglicht das En- und Decoding von ganzen Dateien oder auch von Paketen. Außerdem bietet Google auch Filter und diverse Transformationsfunktionen zur Signalverarbeitung an.

Es existiert auch eine Beispiel-App, die die Nutzung zusammen mit dem Android-NDK demonstriert. Das Team weist auch darauf hin, dass ein kleiner Teil des Codes für mathematische Funktionen derzeit aktuell noch nicht frei verfügbar ist. Diese Bibliothek soll auch als Open Source nachgeliefert werden. Den restlichen Open-Source-Code finden Sie auf Github

Details zum KI-Codec Lyra

Lyra basiert auf dem Konzept des klassischen Vocoders. Dabei wird die zu übertragende Sprachaufnahme nicht als Wellenform komprimiert wie beispielsweise in Opus.

Stattdessen wird die Sprache in kleinere Segmente aufgeteilt und dabei wichtige Parameter extrahiert, aus denen dann am anderen Ende der Verbindung wieder Sprache erzeugt wird.

Bei der Verarbeitung nutzt Lyra Spektrogramme, die das natürliche Hörempfinden von Menschen berücksichtigen. Zur  Erzeugung nutzt Lyra ein KI-Modell, das einer leicht abgewandelten Variante von Deepminds Wavenet entspricht und auch in akzeptabler Geschwindigkeit auf Smartphones laufen soll.