Warum generative KI auf Deutsch schlechter performt

Lost in Translation

Im Bereich der dialogorientierten KI dominiert die englische Sprache, was für andere Sprachen schwerwiegende strukturelle Folgen hat, die nur mit erheblichem Aufwand behoben werden können.

Wenn man ChatGPT eine komplexe Frage auf Englisch stellt, kommt recht häufig eine korrekte, gut formulierte und zum Kontext passende Antwort. Wer dasselbe auf Hindi, Bengali oder Yoruba versucht, bekommt nicht selten eine kürzere, weniger genaue und gelegentlich auch unsinnige Aussage. Auf Deutsch, Französisch oder Spanisch sind die Antworten zwar treffender – erreichen aber weder die inhaltliche noch die sprachliche Qualität einer englischen Aussage.

Generative AI has a language problem. And it doesn’t only affect rare or endangered languages — it hits widely spoken ones too. The Brookings Institution describes the quality gap as a continuum: from English through European languages like German, French and Spanish, all the way to the roughly 7,000 languages spoken worldwide, of which only about 20 are considered “data-rich” — with the gap widening dramatically as you move down the list. This is a problem that surfaces repeatedly in GenAI projects. Non-English systems struggle with precision, hallucinate more frequently, and simply fabricate content that doesn’t exist.

Thema

Wir untersuchen die strukturellen und technischen Gründe für die starke Ausrichtung der meisten Modelle zur Verarbeitung natürlicher Sprache auf die englische Sprache und bewerten die Auswirkungen auf deren Umsetzung und Nutzung.

Zusammenfassung

Die Dominanz des Englischen im Bereich der natürlichen Sprachverarbeitung (NLP) ist strukturell bedingt und lässt sich nicht ohne Weiteres beseitigen. Dies bringt Nachteile für nicht englischsprachige Nutzer mit sich und erfordert zusätzlichen Aufwand, um mit nicht-englischer KI-Technologie gute Ergebnisse zu erzielen.

Dieser Text wurde von einem Menschen verfasst und einem KI-System zur abschließenden Überprüfung vorgelegt, beispielsweise zur Überprüfung der Grammatik, auf Tippfehler oder auf logische Konsistenz

“Wenn Menschen das Gefühl haben, dass die KI sie nicht versteht, oder sie keinen Zugang dazu bekommen, bringt sie ihnen keinen Vorteil.”

Leslie Teo, AI Singapore

Das Grundproblem: Die Systeme werden in Englisch konzipiert

Diese Beobachtungen sind nicht die Folge eines einfach korrigierbaren Fehlers, sondern die Auswirkung eines strukturellen Problems, das tief in der Architektur praktisch aller Sprachmodelle verankert ist. Das Training von Language Models spiegelt die Realität dieser Welt. Die Mehrzahl aller öffentlich verfügbaren Dokumente liegt in englischer Sprache vor. Der Common-Crawl-Datensatz, die wichtigste Quelle für das Training großer Sprachmodelle, besteht zu über 40% aus englischsprachigen Inhalten – und keine andere Sprache erreicht einen Anteil von mehr als 7%. Mit anderen Worten: Die Modelle lernen aus dem, was sie sehen – und das meiste davon ist Englisch.

Sprache	Common Crawl Share (CC-MAIN-2026-12)	Sprecher weltweit	Share of World Weltbevölkerung in %	Verhältnis (Web vs. Sprecher)
Englisch	41.06 %	~1.53 billion	~18.7 %	2.2x
Deutsch	5.98 %	~135 million	~1.6 %	3.7x
Chinesisch	4.99 %	~1.18 billion	~14.4 %	0.35x
Spanisch	4.66 %	~560 million	~6.8 %	0.7x
Französisch	4.61 %	~310 million	~3.8 %	1.2x
Italienisch	2.38 %	~90 million	~1.1 %	2.2x
Hindi	0.22 %	~610 million	~7.4 %	0.03x

Quellen
https://commoncrawl.github.io/cc-crawl-statistics/plots/languages (accessed March 30, 2026).
Ethnologue 2025 (Eberhard, Simons & Fennig, eds., Ethnologue: Languages of the World, 27th ed., SIL International) — for total speaker counts (L1+L2).

Die Folge: Komplexe Anfragen im nicht-englischen Kontext können weniger präzise beantwortet werden, was sich insbesondere in fachsprachlichen Kontexten, wie zum Beispiel bei Rechts- oder Verwaltungstexten, auswirkt. Und auch wenn Deutsch als relativ „datenreiche“ Sprache vergleichsweise privilegiert ist, teilt es die strukturellen Grundprobleme in abgeschwächter Form. Doch es gibt auch Auswirkungen sekundärer Natur: Anweisungen zur Filterung von problematischen Inhalten – z.B. Hasskommentare oder Aussagen, die auf schwere psychische Probleme hindeuten – werden primär in Englisch konzipiert und trainiert. Entsprechend verlieren sie ihre Präzision in anderen Sprachen. Dadurch werden derartige Aussagen häufiger übersehen oder auch zu Unrecht herausgefiltert.

Deutsch, Französisch, Spanisch, Russisch, Japanisch und Chinesisch (inklusive aller Dialekte) machen jeweils unter 6% des Common Crawl Datensatzes aus. Während europäische Sprachen im Verhältnis zu ihrem Anteil an der Weltbevölkerung sogar eher noch überrepräsentiert sind, ist es bei anderen Sprachen deutlich anders. Eine Studie, die auf der AAAI-Konferenz 2025 vorgestellt wurde, untersuchte acht afrikanische Sprachen – darunter Amharisch, Igbo und Shona – mit insgesamt über 160 Millionen Sprechern. Die Autoren dokumentieren einen „Rich-get-Richer“-Effekt: KI-Modelle sind vor allem für englischsprachige Nutzer hilfreich, die wiederum bessere Inhalte produzieren, mit denen noch bessere Modelle trainiert werden (arXiv 2412.12417). Besonders auffällig: Hindi, das von mehr als einer halben Milliarde Menschen gesprochen wird und damit eine der meistgesprochenen Sprachen der Welt ist, hat gerade mal einen Anteil von 0,22% am Common Crawl Sprachschatz. Im medizinischen Bereich zeigt eine Studie der CLAWS-Lab, dass GPT-3.5 bei Hindi-Anfragen 38,6% weniger vollständige Antworten liefert als bei englischen – ein konkretes Beispiel dafür, wie Sprachungleichheit direkte Auswirkungen auf den Informationszugang und Nutzen von KI hat.

Diese Probleme akzentuieren sich noch bei der Verwendung von kleineren Modellen (sogenannte Small and Medium Language Models mit unter 15 bzw. 100 Mrd. Parametern). Diese Modelle, die vor allem auch für Retrieval-getriebene Lösungen (RAG) im Standalone-Betrieb geeignet sind und damit auch die vielen Datenschutzprobleme mit Cloudanbindungen umschiffen, sind im Nicht-Englischen noch ungelenker als die großen Modelle. In einigen Fällen gibt es spezifische Erweiterungen, wie die Embeddings der Berliner Firma Jina für die kleinen Gemma-Sprachmodelle, aber auch diese lösen das Grundproblem nicht vollständig. Selbst Mistral, die europäische LLM-Alternative aus Frankreich, performt auf Englisch besser als in den eigentlichen Zielsprachen Deutsch und Englisch. In den Standard-Benchmarks wirkt sich das noch nicht gravierend aus.

Zusammenfassung: Deutsch ist aufwändiger

The Brookings Institution used a quote to open its 2024 analysis of the AI language gap — and it still fits:

"Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt."

Ludwig Wittgenstein (1889-1951), Philosoph

Many languages, including most European ones, are structurally more complex than English and typically need longer sentences to say the same thing. For example, German compound nouns consume far more tokens (the processing units a model uses to handle text). “Bildungsministerium” as a single word is harder for a model than “ministry of education” — three simple words. The knock-on effects: higher cost per query, a context window that fills up faster (meaning weaker reasoning), and a demonstrably higher hallucination rate. A 2024 IEEE study identified undertrained tokens as a direct cause of hallucinations in models like GPT-4o on non-English text (arXiv 2406.11214). Hallucinations are frustrating aspects of working with AI: a model that handles topics reliably will, without hesitation and with full confidence, produce answers that are simply wrong and completely unverifiable when there isn’t enough relevant data for the vector search to find solid matches. For well-covered subjects, large models produce very low error rates — somewhere between 1–5% depending on the test. But on specific topics, like niche legal questions, lesser-known people, specialist science, rates of up to 50% are not unusual. In underrepresented languages, that effect compounds. Models are most accurate precisely where users already know the answer and can tell right from wrong, and most likely to fabricate content exactly where users have no basis to spot the error.

The language you work in demonstrably shapes what AI can do for you. For people who don't speak English, this translates to a material disadvantage in a world where conversational AI is becoming a useful tool for solving problems and creating output.
From a business perspective, it shouldn’t come as a surprise, then, that Non-English conversational AI projects routinely underperform and often stumble already at the prototype stage. What is consistently underestimated is the additional effort involved: foundational model training for the application’s specific language patterns, a well-designed RAG pipeline, and careful fine-tuning of the language generation. All of that makes good AI implementation more expensive in non-English environments.

Es erfordert Zeit, Geld und ein bewusstes Bekenntnis zur sprachlichen Vielfalt im Entwicklungsprozess. Der erste Schritt besteht jedoch schon darin, anzuerkennen, dass diese Lücke besteht. Wer sie ignoriert, zahlt den Preis einer KI-Anwendung, die nur wenig – oder schlimmer noch: gar keinen – Nutzen bringt.

Mit Eliza reden

This is a faithful representation of the 1966 Eliza version created by Joseph Weizenbaum. It was reproduced by Anthony Hay in C++ based on the original 1965 code and updated by behavior transcripts of the final version.

Loading ELIZA…

Note: The paper version emulates Joseph Weizenbaum's original 1966 ELIZA as it ran on the CTSS time-sharing system (IBM 7094) at MIT, accessed via an IBM Selectric-based hardcopy terminal. On CTSS the question mark served as the line-delete (line-kill) control character, so it could not appear in typed input — and the DOCTOR script accordingly produced no question marks. They are therefore suppressed here, on both sides of the conversation. The green "terminal" version enables question marks instead; it represents a glowing CRT display of a kind that did not exist for ELIZA in 1966 and evokes a later era of computing.

Play Chess like 1997 (Deep Blue Style)

Here's our simulation of Deep Blue. You can play against Stockfish (able to run on a laptop today with similar strength compared to Deep Blue). Bonus: you can replay the legendary 1997 rematch where Deep Blue won against Garry Kasparov.

Loading Deep Blue…