Die jüngsten Fortschritte bei Sprachmodellen werden oft an der Größe ihrer Kontextfenster gemessen – die Fähigkeit, 100.000 Tokens oder mehr auf einmal zu verarbeiten. Die gängige Annahme ist einfach: Mehr Kontext führt zu besseren Ergebnissen. Man geht davon aus, dass ein Modell, dem man ein ganzes Buch zur Verfügung stellt, jede Frage dazu beantworten kann, egal wo die Antwort versteckt ist.
Doch diese Annahme wird durch eine überraschende Erkenntnis aus einer (zugegeben nicht mehr so aktuellen) Studie von Forschern der Stanford University („Lost in the Middle“) in Frage gestellt. Die Studie zeigt, dass diese hochentwickelten Modelle eine unerwartete Schwäche haben: Sie neigen dazu, Informationen in der Mitte ihres langen Kontexts zu „vergessen“ oder zu ignorieren. Statt den gesamten Text gleichmäßig zu nutzen, konzentrieren sie sich stark auf den Anfang und das Ende.
Dieser Beitrag fasst die wichtigsten und überraschendsten Erkenntnisse aus dieser interessanten Studie in einer leicht verständlichen Form zusammen und erklärt, was dieses „U-Problem“ für jeden bedeutet, der mit großen Sprachmodellen arbeitet. Übrigens, im zweiten Teil sagt uns Claude 4.5 Sonnet den aktuellen Stand 2024/2025.
Die 5 wichtigsten Erkenntnisse aus der „Lost in the Middle“-Studie
1. Das Kernproblem: Eine „U-förmige“ Leistungskurve (Primacy- und Recency-Effekt)
Die zentrale Entdeckung der Studie ist eine konsistente „U-förmige“ Leistungskurve. Das bedeutet, die Fähigkeit eines Sprachmodells, relevante Informationen zu finden und zu nutzen, ist am höchsten, wenn sich diese Informationen ganz am Anfang (ein psychologischer Effekt, bekannt als „Primacy-Effekt“) oder ganz am Ende („Recency-Effekt“) des Eingabekontexts befinden. Liegt die entscheidende Information jedoch in der Mitte, sinkt die Leistung drastisch.
Um dies zu testen, führten die Forscher ein Multi-Document-Question-Answering-Experiment durch. Einem Modell wurde eine Frage gestellt, deren Antwort in einem einzigen Dokument versteckt war, das unter vielen thematisch relevanten, aber letztlich falschen „Distraktor“-Dokumenten platziert wurde. Die Position des relevanten Dokuments wurde dabei variiert.
Die schockierendste Statistik kam von GPT-3.5-Turbo: Wenn sich die Antwort in der Mitte des Kontexts befand, fiel seine Genauigkeit unter das Niveau, das es erreichte, wenn es die Antwort ohne jegliche Dokumente erraten musste (der „Closed-Book“-Fall, mit 56,1 % Genauigkeit). Das Paradoxe daran ist: Dem Modell wurde die exakte Antwort in einem Kontext gegeben, der ihm helfen sollte. Statt die Leistung zu verbessern, hat dieser „hilfreiche“ Kontext sie aktiv behindert, sodass das Modell schlechter abschnitt, als wenn es sich nur auf sein internes Wissen verlassen hätte. Dies deutet darauf hin, dass bei Informationen, die in der Mitte vergraben sind, irrelevanter Kontext nicht nur neutral, sondern aktiv schädlich ist.
…performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts…
2. Größere Kontextfenster sind kein Allheilmittel
Die naheliegende Annahme wäre, dass Modelle, die speziell für längere Kontexte entwickelt wurden – wie GPT-3.5-Turbo-16K (mit einem 16.000-Token-Fenster) oder Claude-1.3-100K (mit 100.000 Tokens) – dieses Problem beheben. Die Studie zeigt jedoch, dass dies nicht der Fall ist. Ein größeres Kontextfenster bedeutet lediglich, dass das Modell mehr Informationen aufnehmen kann, nicht aber, dass es die Informationen innerhalb dieses Fensters besser nutzt.
Die Beweise aus der Studie sind eindeutig: Wenn man die Leistungskurven von Standardmodellen (z. B. GPT-3.5-Turbo mit 4K Tokens) mit denen ihrer Pendants mit erweitertem Kontext (GPT-3.5-Turbo-16K) vergleicht, sind die Kurven nahezu identisch, solange die Eingabelänge in den Bereich beider Modelle passt.
Die klare Schlussfolgerung ist, dass ein größeres Kontextfenster allein die grundlegende Schwäche der Positionsabhängigkeit nicht behebt. Das Problem liegt tiefer in der Architektur und Funktionsweise der Modelle.
3. Es geht nicht nur um das Verstehen von Sprache, sondern um den reinen Abruf
Könnte das Problem darin liegen, dass die Modelle Schwierigkeiten haben, die semantische Relevanz in einem Wust von natürlicher Sprache zu erkennen? Um diese Hypothese zu testen, entwickelten die Forscher ein synthetisches Key-Value-Retrieval-Experiment. Die Aufgabe war denkbar einfach und frei von sprachlicher Komplexität: Das Modell erhielt ein langes JSON-Objekt, das aus zufälligen Schlüssel-Wert-Paaren (UUIDs) bestand, und musste den Wert für einen bestimmten Schlüssel abrufen.
Auch hier zeigten viele Modelle, einschließlich GPT-3.5-Turbo und MPT-30B-Instruct, die gleiche U-förmige Leistungskurve. Sie hatten Schwierigkeiten, eine exakte Zeichenfolge zu finden, wenn sie sich in der Mitte des Kontexts befand. Interessanterweise schnitten einige Modelle wie Claude bei dieser speziellen Aufgabe nahezu perfekt ab. Dieser starke Kontrast ist entscheidend: Das „Lost in the Middle“-Phänomen ist kein inhärenter, unvermeidbarer Fehler aller Transformer-Architekturen, sondern eine Eigenschaft bestimmter Modelle oder ihrer Trainingsmethoden. Die Tatsache, dass einige Modelle dieses Problem überwinden können, deutet darauf hin, dass es lösbar ist.
Dieses Ergebnis deutet darauf hin, dass das Problem nicht nur auf Schwierigkeiten beim Verstehen von natürlicher Sprache beruht, sondern tief in der Art und Weise verwurzelt ist, wie einige Modelle Informationen basierend auf ihrer Position verarbeiten.
4. Die Ursache ist nicht nur das „Instruction Fine-Tuning“
Eine weitere Hypothese war, dass der Prozess des „Instruction Fine-Tuning“ – bei dem ein Basismodell darauf trainiert wird, Anweisungen zu befolgen – das Problem verursachen könnte. Da Anweisungen in den Trainingsdaten typischerweise am Anfang eines Prompts stehen, könnte das Modell gelernt haben, dem Anfang übermäßige Aufmerksamkeit zu schenken.
Um dies zu überprüfen, verglichen die Forscher das Modell MPT-30B-Instruct mit seinem Basismodell (MPT-30B), das kein solches Fine-Tuning durchlaufen hatte. Das Ergebnis war eindeutig: Auch das Basismodell zeigte die charakteristische U-förmige Leistungskurve. Zwar verbesserte das Fine-Tuning die absolute Leistung insgesamt, aber die grundlegende Tendenz, Informationen in der Mitte zu vernachlässigen, blieb bestehen.
Darüber hinaus offenbart die Studie eine faszinierende Korrelation mit der Modellgröße. Eine Analyse der Llama-2-Modelle zeigte, dass die vollständige U-förmige Kurve – mit starker Leistung sowohl am Anfang als auch am Ende – erst bei größeren Modellen (13B Parameter und mehr) auftritt. Kleinere 7B-Modelle zeigten nur eine „Recency-Tendenz“ und hatten mit allen Informationen Schwierigkeiten, außer mit denen am äußersten Ende. Dies deutet darauf hin, dass die Fähigkeit, Informationen am Anfang eines langen Kontexts zu gewichten, eine emergente Eigenschaft der Modellgröße ist.
5. Praktische Konsequenzen: Mehr Kontext ist nicht immer besser
Was bedeutet das alles für die Praxis? In einer Fallstudie zum Open-Domain Question Answering wurde einem Modell eine Frage gestellt und eine zunehmende Anzahl von abgerufenen Dokumenten (von 5 bis 50) zur Verfügung gestellt. Man würde erwarten, dass die Genauigkeit der Antwort steigt, je mehr potenziell relevante Dokumente das Modell erhält.
Die Kernerkenntnis war jedoch, dass die Leistung der Modelle schnell stagnierte, lange bevor die Anzahl der relevanten Dokumente im Kontext ihr Maximum erreichte. Die Forscher quantifizierten dies: Die Verwendung von 50 statt 20 Dokumenten verbesserte die Leistung bei GPT-3.5-Turbo nur um ca. 1,5 % und bei Claude-1.3 um ca. 1 %, erhöhte aber gleichzeitig die Kosten und die Latenz erheblich. Dieses Leistungsplateau trat auf, obwohl der „Retriever-Recall“ – die Wahrscheinlichkeit, dass das richtige Dokument im Kontext vorhanden ist – weiter stark anstieg. Die Modelle hatten also Zugang zu mehr korrekten Informationen, konnten diese aber nicht effektiv nutzen.
Die praktische Relevanz ist klar: Das blinde Hineinstopfen von mehr Informationen in den Kontext ist ineffizient und kann sogar kontraproduktiv sein. Stattdessen könnten Strategien wie das bewusste Umordnen von Dokumenten – bei denen die wichtigsten Informationen an den Anfang oder das Ende des Prompts verschoben werden – entscheidend für den Erfolg sein.
Fazit: Was bedeutet das für Sie?
Die zentrale Botschaft der „Lost in the Middle“-Studie ist, dass große Sprachmodelle eine starke Positionsabhängigkeit aufweisen. Sie „verlieren“ Informationen in der Mitte, was die oft angepriesene Nützlichkeit extrem langer Kontexte erheblich einschränkt. Die praktische Implikation lässt sich auf eine einfache Analogie reduzieren: Ein größeres Gedächtnis ist nutzlos, wenn man sich nur an den Anfang und das Ende erinnern kann.
Das Verständnis dieser Einschränkung ist der Schlüssel zur effektiveren Nutzung von KI. Es geht nicht mehr nur darum, was wir in einen Prompt schreiben, sondern auch darum, wo wir es platzieren. Die Fähigkeit, Informationen strategisch zu positionieren, wird zu einer entscheidenden Fähigkeit im Prompt Engineering.
Nachdem Sie nun von diesem „U-Problem“ wissen, wie werden Sie Ihre Herangehensweise an das Schreiben von Prompts für komplexe Aufgaben ändern?