close

Forschung - 18.12.2025 - 14:00 

Neuer Benchmark zeigt: KI versteht Finanzen aber ist häufig blind bei der Informationssuche

KI hat grosses Potential bei der Finanzanalyse. In einer aktuellen Studie der HSG wurde ein neuer Benchmark entwickelt, um die Leistung grosser Sprachmodelle bei der Prüfung und Interpretation von Geschäftsberichten zu testen. Dabei zeigte sich, dass aktuelle KI-Modelle zwar gut im Interpretieren aber schlecht im Suchen von wichtigen Informationen sind.

Finanzanalysten stehen jährlich vor der Mammutaufgabe, Hunderte von komplexen Geschäftsberichten zu durchforsten, um fundierte Investitionsentscheidungen zu treffen. Diese zeitaufwendige und anspruchsvolle Tätigkeit scheint prädestiniert für die Automatisierung durch Künstliche Intelligenz. Um zu testen, wie gut aktuelle Sprachmodelle bei dieser Aufgabe abschneiden, entwickelte der Doktorand Jan Spörer von der School of Computer Science der HSG  (SCS-HSG) den neuen Benchmark «Financial Touchstone».  Dieser enthält 2’878 Frage-Antwort-Paare zu 480 internationalen Geschäftsberichten. Diese Berichte sind dabei garantiert nicht in das ursprüngliche Training der KI-Modelle eingeflossen. Die getesteten Sprachmodelle konnten somit die Antworten auf diese Fragen nicht aus ihrem trainierten «Gedächtnis» abrufen, sondern mussten sie in den Geschäftsberichten nachschlagen. Jan Spörer testete dann mit diesem Benchmark elf Sprachmodelle, darunter Reasoning-Modelle wie Googles Gemini 2.5 Pro, Anthropic’s Claude Opus und OpenAIs o3.

Besseres Verständnis als der Mensch

Die Ergebnisse der Studie zeigten eine bemerkenswert hohe Genauigkeit der KI. Gemini 2.5 Pro führte die Modelle mit 91,6 % korrekter Antworten an. Das Modell hat dabei in nur 3.2 % der Antworten halluziniert, also Informationen erfunden. Die Genauigkeit der Sprachmodelle übertraf sogar die gemessene menschliche Leistung von 82,8 % korrekter Antworten. Allerdings enthüllte die Studie eine entscheidende Schwachstelle der KI-Finanzanalysten: Es stellte sich heraus, dass die wichtigste Ursache für ihre fehlerhaften Antworten nicht mangelhafte Verständnisfähigkeit war, sondern der anfängliche Schritt ihrer Informationsbeschaffung. Zwei Drittel aller Fehler sind auf Probleme beim Abrufen relevanter Informationen aus den oft seitenlangen Geschäftsberichten zurückzuführen. «Die KI hat Schwierigkeiten, die Nadel im Heuhaufen zu finden», sagt Prof. Dr. Siegfried Handschuh, der die Arbeit fachlich begleitet hat.

Kartierung von Geschäftsberichten

Um diesen Engpass zu umschiffen, testeten die Forschenden in einer separaten Folgearbeit einen fortschrittlicheren Ansatz für das Abrufen von Informationen: Die sogenannte GraphRAG-Methode. Diese zweite Studie wurde von Jan Spörer, Michael Gaus und Prof. Dr. Siegfried Handschuh gemeinsam durchgeführt. Bei der GraphRag-Methode wird zuerst eine «Landkarte» für jeden der umfangreichen Geschäftsberichte erstellt. Dies geschieht, indem ein Sprachmodell zuerst alle wichtigen Fakten im Geschäftsbericht herausliest (z. B. Finanzkennzahlen, Geschäftsbereiche, juristische Einheiten) und wie diese miteinander in Beziehung stehen. Diese Informationen werden dann in einem Wissensgraphen organisiert, wobei die Fakten als Knoten und die Beziehungen als Kanten dargestellt werden. Mithilfe spezieller Algorithmen wird dieser Graph dann in thematische Gruppen unterteilt. Das Sprachmodell erstellt daraufhin umfassende Zusammenfassungen für jede dieser Gruppen auf verschiedenen Detailebenen. Wird nun eine komplexe Frage gestellt, muss das System nicht mehr den gesamten Rohtext durchsuchen, sondern navigiert stattdessen durch die strukturierte «Landkarte» und nutzt die Zusammenfassungen, um Informationen zusammenzuführen. Dieser Ansatz ist besonders wertvoll, um Antworten zu finden, die über verschiedene Abschnitte verteilt sind, wie etwa konsolidierte Ergebnisse über mehrere Geschäftssegmente hinweg.

Besserer Informationsabruf aber mehr Halluzinationen

Die Ergebnisse der GraphRAG-Methode auf dem Gemini 2.5 Pro-Modell sind vielversprechend: Die Korrektheit bei der Beantwortung von Fragen stieg um 2,1 Prozentpunkte. Dies zeigt, dass die Wissensgraph-Struktur tatsächlich dazu beiträgt, komplexe Beziehungen zu erfassen und Antworten über verschiedene Dokumentabschnitte hinweg zu aggregieren. Allerdings hat die GraphRAG-Methode auch eine Kehrseite: Die Rate der Halluzinationen stieg mit ihr um 6.1 Prozentpunkte. «Dies deutet darauf hin, dass die Zusammenfassungen der Gruppen das Modell manchmal verwirren können», so Siegfried Handschuh. 

Die Ergebnisse der beiden Studien seien auch für die aktuellsten Sprach- und Reasoningmodelle wie etwa Gemini 3 relevant: «Zwar ist zu erwarten, dass die aktuellsten Modelle in der reinen Verstehens- und Reasoning-Leistung weiter zulegen. Die Studien zeigen jedoch, dass der zentrale Engpass bei der Analyse sehr langer und komplexer Dokumente nicht im Verstehen selbst liegt, sondern im zuverlässigen Auffinden und Zusammenführen relevanter Informationen», sagt Siegfried Handschuh. GraphRAG stelle eine vielversprechende Richtung für die zukünftige Forschung dar, da es eine effizientere, umfassendere und genauere Informationsbeschaffung ermöglicht.

Entdecken Sie unsere Themenschwerpunkte

north