Interview

„Für Europa ist diese Forschung hoch relevant“

Viele KI-Modelle stoßen bei unterrepräsentierten Sprachen an ihre Grenzen. Daran arbeitet Dr. Simon Ostermann vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Im Interview spricht er darüber, warum offene Sprachdaten aus dem Globalen Süden nicht nur ein Akt von Fairness sind – sondern ein echter Erkenntnisgewinn für die KI-Forschung.

Interview: Brigitte Spitz
Illustration eines Mannes mit Bart und Brille an einem Laptop, umgeben von Symbolen und Wörtern in verschiedenen Sprachen, die Kommunikation und Übersetzung darstellen.
Porträt eines lächelnden Mannes mit kurzen braunen Haaren, Ohrsteckern und dunkelblauem Hemd vor neutralem Hintergrund.
Dr. Simon Ostermann vom Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken

Warum sind Open-Source-Sprachprojekte für das DFKI wissenschaftlich interessant?

Open-Source-Sprachprojekte sind gerade für unterrepräsentierte Sprachen besonders interessant. Sie hinterfragen bestehende Annahmen in der KI-Forschung, denn viele gängige Modelle und Methoden wurden für wenige, dominante Sprachen entwickelt. Sie lassen sich nicht ohne Weiteres übertragen. Die Arbeit mit unterrepräsentierten Sprachen eröffnet neue Fragen für die Forschung, etwa zur Robustheit von Modellen, zu datenarmen Szenarien oder zu sprachlicher Vielfalt und Mehrsprachigkeit. Solche Projekte tragen damit direkt dazu bei, grundlegende KI-Methoden weiterzuentwickeln. Offene Sprachdaten aus dem Globalen Süden verbreitern die empirische Basis deutlich. Sie helfen, Verzerrungen in Modellen zu reduzieren und KI-Systeme zu entwickeln, die global einsetzbar sind.

Davon profitieren demnach auch deutsche oder europäische Institutionen?

Gerade für Europa ist die Forschung, die auf solchen Sprachdaten basiert, hochgradig relevant. Auch viele der Sprachen, die in der EU gesprochen werden, sind immer noch unterrepräsentiert. Deutsche und europäische Forschungseinrichtungen profitieren davon, weil sie dadurch realistischere, fairere und wissenschaftlich belastbarere Modelle entwickeln können. Zudem entstehen neue Vergleichsmöglichkeiten über Sprachfamilien und kulturelle Kontexte hinweg.

FAIR Forward engagiert sich für offene und vertrauenswürdige KI-Systeme. Wie gelingt das?

Für den Umgang mit Trainingsdaten gelten bei FAIR Forward Prinzipien wie Offenheit, Transparenz und Nachhaltigkeit. Dokumentation, Datenqualität und ethische Verantwortung gewinnen deutlich an Gewicht. Aus meiner Sicht entstehen so neue gemeinsame Standards, die internationale Zusammenarbeit erleichtern, weil Erwartungen und Arbeitsweisen über Länder und Kontinente hinweg klarer definiert sind. Gleichzeitig senkt dies Hürden für langfristige Kooperationen zwischen Forschung, Zivilgesellschaft und öffentlichen Akteuren.

Wo sehen Sie Potenzial für eine vertiefte Zusammenarbeit zwischen deutschen Forschungseinrichtungen und Partnern in Ländern wie Indien, wo FAIR Forward etwa mit dem Indian Institute of Science kooperiert?

Großes Potenzial sehe ich in der gemeinsamen Entwicklung und Pflege offener Datensätze und Sprachmodelle, die von Anfang an international, multilingual und multikulturell gedacht sind. Auch der Aufbau gemeinsamer Infrastruktur für die Forschung, etwa Rechenressourcen oder Datenplattformen, bietet Chancen für nachhaltige Kooperation. Darüber hinaus können bilaterale Forschungsprojekte helfen, unterschiedliche Perspektiven auf KI-Systeme zusammenzuführen und gemeinsam neue methodische Ansätze zu entwickeln – wobei dies natürlich immer von passenden Förderinstrumenten abhängt.

Wird geladen