Die Digital Public Goods Alliance hat den Sprachdatensatz Common Voice der Mozilla Foundation offiziell nach ihrem Standard als digitales öffentliches Gut (Digital Public Good, DPG) anerkannt und zertifiziert. Der Datensatz mit gesprochenen Inhalten in 87 verschiedenen Sprachen gehört seit Anfang Februar zu den derzeit 88 zertifizierten Projekten in der Registry der Allianz.
Mozilla hat Common Voice 2017 als Crowdsourcing-Projekt ins Leben gerufen, um öffentlich zugängliche Sprachdaten für Spracherkennungssoftware bereitzustellen. Der Datensatz ist als offene Alternative zu den Sprachdaten in den Händen von Unternehmen wie Amazon, Microsoft, Apple oder Google für ihre jeweiligen Machine-Learning-Angebote ausgelegt.
Erklärtes Ziel des Projekts ist zudem, mehr Diversität bei den Sprachdaten zu schaffen. Mozilla sieht bei den anderen Datensätzen einen überproportionalen Anteil englischsprachiger weißer Männer. Durch diesen Bias funktionierten ML-Anwendungen besser für diese Zielgruppe als für andere Menschen. Die Unterstützer des Projekts können Sätze in ihrer Landessprache einlesen oder Sätze anderer verifizieren. Dadurch sollen Machine-Learning-Projekte und Sprachassistenten in den jeweiligen Landessprachen verbessert werden.
2020 war Common Voice im Zuge der radikalen Sparmaßnahmen und Entlassungen bei Mozilla ins Wanken geraten, und der Leiter hatte seinerzeit das Unternehmen verlassen. 2021 kündigte Nvidia an im Rahmen der Vorstellung des Conversational-AI-Frameworks Jarvis an, Common Voice als Grundlage zum Entwickeln vortrainierter Modelle zu nutzen und kostenfrei der Allgemeinheit zur Verfügung zu stellen. Zudem hat Nvidia in 2021 insgesamt 1,5 Millionen US-Dollar in Mozillas Common Voice Projekt investiert.
Allianz mit Segen des UN-Generalsekretärs
2020 regte der UN-Generalsekretär António Guterres die Gründung der Digital Public Goods Alliance an, die dafür sorgen soll, dass der Anteil an öffentlichen Ressourcen wie Open-Source-Software und offen zugänglichen Daten wächst.
Die Initiative zertifiziert digitale öffentliche Güter wie Open-Source-Software, offene KI-Modelle, offene Standards und offene Inhalte, die den Datenschutz und Ziele für nachhaltige Entwicklung (Sustainable Development Goals, SDG) berücksichtigen. In ihrer Registry führt sie neben den zertifizierten Digital Public Goods 652 nominierte Projekte auf. Der Großteil der Projekte in der DGP-Registry kommt aus dem Bereich Open-Source-Software, daneben finden sich offene Daten, Inhalte und Standards.
Die Mozilla Foundation erhofft sich von der Zertifizierung von Common Voice als Digital Public Good vor allem eine erhöhte Sichtbarkeit und wachsende Unterstützung für das Projekt. Weitere Details lassen sich dem Blog der Mozilla Foundation entnehmen.