Forschung - 18.11.2025 - 10:00
Das Trainieren von KI-Modellen ist im Grunde ein mathematisches Optimierungsproblem. Ziel ist es, die sogenannte Verlustfunktion zu minimieren. Das ist eine Funktion, welche den Fehler des Modells in Abhängigkeit seiner Parameterwerte darstellt. Während des Trainings werden diese Parameter des KI-Modells nach und nach korrigiert, um sich dem Minimum der Verlustfunktion anzunähern. Man kann sich dies als eine Wanderung vorstellen, bei der das Ziel der tiefste Punkt in einer riesigen Gebirgslandschaft ist. Das Problem: Diese Landschaft ist beim Startpunkt meist uneben, hügelig und unübersichtlich - Mathematisch gesprochen entspricht dies einer «nicht-konvexen» Region der Verlustfunktion. Erst kurz vor dem tiefsten Punkt lichtet sich das Gelände und wird zu einem einfachen, schüsselförmigen Tal – einer sogenannten konvexen Region der Verlustfunktion.
Bisherige Trainingsmethoden für KI-Modelle nutzen meist nur einen einzelnen «Bergführer» im Sinne eines einzelnen Minimierungsalgorithmus für die gesamte Strecke. Forschende der School of Computer Science der Universität St.Gallen (SCS-HSG) stellten sich nun die Frage, ob nicht zwei verschiedene «Bergführer» effizienter wären.
Prof. Dr. Siegfried Handschuh, Dr. Tomas Hrycej, Dr. Bernhard Bermeitinger, Massimo Pavone und Götz-Henrik Wiegand von der SCS-HSG setzten dabei auf zwei unterschiedliche Optimierungsalgorithmen. Adam (benannt nach dem Adam-Algorithmus) ist ein robuster Bergwanderer, der sich effizient durch raues, nicht-konvexes Terrain bewegt, aber im flachen Gelände unnötig langsam ist. Die Forscher fanden nun einen Weg, den Wendepunkt zu erkennen, an dem die hügelige Landschaft in das flache Tal übergeht. Sobald dieser Punkt erreicht wird, übernimmt der zweiter Bergführer Conrad (in Anlehnung an die «Konjugierte Gradientenmethode», CG). Conrad ist ein Speed-Runner, der auf flachem, konvexem Terrain unschlagbar ist und schnell den tiefsten Punkt findet.
Computer-Experimente mit verschiedenen KI-Bildverarbeitungs-Modellen bestätigten diese Strategie eindrucksvoll. Die Touren, auf welchen Adam und Conrad kombiniert ins Tal führten, waren deutlich schneller, als wenn Adam oder Conrad alleine den Weg vorgaben. «In unseren Experimenten zeigte der Zwei-Phasen-Ansatz eine etwa dreifach schnellere Konvergenz bei deutlich besseren Endergebnissen», so Prof. Dr. Siegfried Handschuh.
Für ihre Arbeit wurden die Forscher an der «KDIR IC3K Conference 2025» mit dem Best Paper Award ausgezeichnet. Als Nächstes will das Team prüfen, ob ihr Zwei-Wanderer-Prinzip auch die Expedition in die riesigen Täler grosser Sprachmodelle meistert. «Sollte sich dieser Effekt auch bei grossen KI-Modellen bestätigen, könnte das die Trainingskosten massiv senken, die Modellqualität verbessern und die CO₂-Bilanz grosser Modelle spürbar reduzieren», sagt Siegfried Handschuh.
Weitere Beiträge aus der gleichen Kategorie
Das könnte Sie auch interessieren
Entdecken Sie unsere Themenschwerpunkte
