„Für Europa ist diese Forschung hoch relevant“
Viele KI-Modelle stoßen bei unterrepräsentierten Sprachen an ihre Grenzen. Daran arbeitet Dr. Simon Ostermann vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Im Interview spricht er darüber, warum offene Sprachdaten aus dem Globalen Süden nicht nur ein Akt von Fairness sind – sondern ein echter Erkenntnisgewinn für die KI-Forschung.
Warum sind Open-Source-Sprachprojekte für das DFKI wissenschaftlich interessant?
Open-Source-Sprachprojekte sind gerade für unterrepräsentierte Sprachen besonders interessant. Sie hinterfragen bestehende Annahmen in der KI-Forschung, denn viele gängige Modelle und Methoden wurden für wenige, dominante Sprachen entwickelt. Sie lassen sich nicht ohne Weiteres übertragen. Die Arbeit mit unterrepräsentierten Sprachen eröffnet neue Fragen für die Forschung, etwa zur Robustheit von Modellen, zu datenarmen Szenarien oder zu sprachlicher Vielfalt und Mehrsprachigkeit. Solche Projekte tragen damit direkt dazu bei, grundlegende KI-Methoden weiterzuentwickeln. Offene Sprachdaten aus dem Globalen Süden verbreitern die empirische Basis deutlich. Sie helfen, Verzerrungen in Modellen zu reduzieren und KI-Systeme zu entwickeln, die global einsetzbar sind.
Davon profitieren demnach auch deutsche oder europäische Institutionen?
Gerade für Europa ist die Forschung, die auf solchen Sprachdaten basiert, hochgradig relevant. Auch viele der Sprachen, die in der EU gesprochen werden, sind immer noch unterrepräsentiert. Deutsche und europäische Forschungseinrichtungen profitieren davon, weil sie dadurch realistischere, fairere und wissenschaftlich belastbarere Modelle entwickeln können. Zudem entstehen neue Vergleichsmöglichkeiten über Sprachfamilien und kulturelle Kontexte hinweg.
FAIR Forward engagiert sich für offene und vertrauenswürdige KI-Systeme. Wie gelingt das?
Für den Umgang mit Trainingsdaten gelten bei FAIR Forward Prinzipien wie Offenheit, Transparenz und Nachhaltigkeit. Dokumentation, Datenqualität und ethische Verantwortung gewinnen deutlich an Gewicht. Aus meiner Sicht entstehen so neue gemeinsame Standards, die internationale Zusammenarbeit erleichtern, weil Erwartungen und Arbeitsweisen über Länder und Kontinente hinweg klarer definiert sind. Gleichzeitig senkt dies Hürden für langfristige Kooperationen zwischen Forschung, Zivilgesellschaft und öffentlichen Akteuren.
Dr. Simon Ostermann ist Senior Researcher und kommissarischer Leiter des Forschungsbereichs Multilingualität und Sprachtechnologie am Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken. Er leitet hier die Forschungsgruppe für effiziente und erklärbare Sprachverarbeitung und hält die Vertretungsprofessur für Translationsorientierte Sprachtechnologie an der Universität des Saarlandes. Seine Arbeit umfasst Forschung zu erklärbarer KI, der Effizienz von Sprachmodellen und dazu, wie Sprachtechnologien für unterrepräsentierte Sprachen verbessert werden können.
Wo sehen Sie Potenzial für eine vertiefte Zusammenarbeit zwischen deutschen Forschungseinrichtungen und Partnern in Ländern wie Indien, wo FAIR Forward etwa mit dem Indian Institute of Science kooperiert?
Großes Potenzial sehe ich in der gemeinsamen Entwicklung und Pflege offener Datensätze und Sprachmodelle, die von Anfang an international, multilingual und multikulturell gedacht sind. Auch der Aufbau gemeinsamer Infrastruktur für die Forschung, etwa Rechenressourcen oder Datenplattformen, bietet Chancen für nachhaltige Kooperation. Darüber hinaus können bilaterale Forschungsprojekte helfen, unterschiedliche Perspektiven auf KI-Systeme zusammenzuführen und gemeinsam neue methodische Ansätze zu entwickeln – wobei dies natürlich immer von passenden Förderinstrumenten abhängt.
Viele Anwendungen der Künstlichen Intelligenz (KI) bauen auf Sprachdaten auf. Als Datenbasis dienen vor allem die weit verbreiteten Sprachen. Andere Sprachen sind digital unterrepräsentiert, d. h. es gibt nur wenig digitale Inhalte in diesen Sprachen, von denen die KI lernen kann. Daher finden sie in KI-Modellen nicht statt. Mit der BMZ-Initiative FAIR Forward – Künstliche Intelligenz für Alle – umgesetzt durch die GIZ – entstehen neue Standards für offene und vertrauenswürdige KI-Systeme. So erhalten Menschen in Ländern des Globalen Südens einen besseren Zugang zu KI-Anwendungen.
Das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) war bei FAIR Forward als wissenschaftlich-technischer Partner eingebunden. Das DFKI hat Expertise in den Bereichen Sprachdaten, multilinguale Modelle und offene KI-Technologien eingebracht. Die technische Unterstützung erfolgte durch enge Zusammenarbeit mit lokalen Partnern, die gemeinsame Definition von Anforderungen sowie Beratung bei der Datenerhebung, -aufbereitung und der Entwicklung von offenen Sprachressourcen. Wichtige Bestandteile waren auch der Wissenstransfer, etwa durch Workshops und fachlichen Austausch, sowie die Bereitstellung von Rechenleistung auf den Servern des DFKI.