Interview mit Dr. Jenia Jitsev und Dr. Mehdi Cherti vom Jülich Supercomputing Centre (JSC)

Abb.: Dr. Jenia Jitsev (links) und Dr. Mehdi Cherti (rechts), arbeiten als Experten für maschinelles Lernen auf großen Skalen am Jülich Supercomputing Centre (JSC). Das Hintergrundbild wurde mit dem Open-Source-Bildgenerator Stable Diffusion erzeugt, der auf den freien LAION-Datensätzen basiert.

 

Logo.2ceb35fcDie KI-Revolution findet größtenteils hinter verschlossenen Türen statt. Jülicher Forscher wollen das ändern und haben mit deutschen und internationalen Partnern die größte frei zugängliche Bild-Text-Datenbank für die Entwicklung unabhängiger KI-Modelle erstellt.

Künstliche Intelligenzen der neuesten Generation wie der Chatbot ChatGPT sorgen seit einiger Zeit für Furore. Bild-KIs wie DALL-E 2 oder Imagen erschaffen auf Befehl virtuelle Welten in verblüffender Qualität. Doch die KI-Revolution findet größtenteils hinter verschlossenen Türen statt. Dahinter stecken Hightech-Giganten wie Google oder OpenAI, deren Daten und Methoden nicht frei zugänglich sind. Dr. Jenia Jitsev und Dr. Mehdi Cherti vom Jülich Supercomputing Centre (JSC) wollen das ändern. Zu diesem Zweck haben sie gemeinsam mit deutschen und internationalen Partnern den gemeinnützigen Forschungsverbund LAION gegründet und zusammen die bisher größte frei zugängliche Text-Bild-Datenbank für die Entwicklung unabhängiger KI-Modelle erstellt.

Für das rechenintensive Training der Netzwerkmodelle nutzten sie Deutschlands leistungsstärkste Plattform für Deep Learning und KI, den Supercomputer JUWELS am Forschungszentrum Jülich. Die Arbeit wurde kürzlich mit einem wichtigen Preis für KI ausgezeichnet. Im Interview erklären Dr. Jenia Jitsev und Dr. Mehdi Cherti, wie weit die Open-Source-KI schon ist und welches Potenzial in dem Ansatz steckt.

Mit der LAION-Initiative setzen Sie sich seit einigen Jahren für Open-Source und Open-Science im Bereich des maschinellen Lernens ein. Was ist Ihre Motivation?

Dr. Jenia Jitsev: Das Problem ist, dass man auf sehr große Skalen gehen muss, damit diese neuen Funktionalitäten eintreten, die man bei den aktuellen KI-Modellen beobachten kann. Man braucht enorme Rechenressourcen, man muss genügend Daten sammeln und man braucht Leute, die auf diese Art von Training in großem Maßstab spezialisiert sind. Lange Zeit war dieser ressourcenintensive Ansatz nur großen Unternehmen wie Google, Meta oder OpenAI vorbehalten.

Die Entwicklung in diesen Unternehmen findet jedoch hinter verschlossenen Türen statt. Die Ergebnisse werden nicht veröffentlicht und können nicht von anderen Wissenschaftlern reproduziert werden. Man kann sie nicht selbst testen und damit experimentieren. Dies erschwert die Überprüfung und führt zu Sicherheitsproblemen, da niemand unabhängig kontrollieren kann, wie das Modell erstellt wurde und welche Daten für das Training verwendet wurden.

Als das amerikanische Unternehmen OpenAI vor einigen Jahren den kommerziellen Bildgenerator DALL-E vorstellte, war für uns sofort klar, dass wir ein solches Modell auch gerne frei verfügbar hätten, damit die Scientific Community es richtig untersuchen kann. Über das Internet stießen wir sehr schnell auf Gleichgesinnte wie zum Beispiel Christoph Schumann in Hamburg, einer der anderen Hauptorganisatoren von LAION, der sich als Gymnasiallehrer für KI im Schulunterricht einsetzt. Weitere Mitglieder kamen aus Paris, Bukarest und Köln, später dann aus Seattle, Montreal und Frankfurt zu dem Verbund, der seinen Sitz in Deutschland hat, hinzu.

juwels-600
Abb.: Der Jülicher Superrechner JUWELS bietet mit seinem Booster-Modul Deutschlands stärkste Plattform für KI.(Copyright: Forschungszentrum Jülich / Sascha Kreklau)

Welche Rolle spielte der JUWELS-Supercomputer am Forschungszentrum Jülich in dem LAION-Projekt?

Dr. Mehdi Cherti: Wir haben mit unserer Expertise dazu beigetragen, das LAION-Projekt auf die Superrechner in Jülich zu bringen. Diese verfügen über die nötige Rechenpower, die für die Experimente und Validierung der Datensätze und Lernalgorithmen notwendig sind. Speziell der JUWELS-Booster ist mit seinen leistungsstarken Grafikprozessoren, NVIDIA A100 GPUs, ideal für das Training solcher KI-Modelle ausgelegt. Dazu gehört auch das Vortraining der Modelle. Dieses muss zwar nur einmal durchgeführt werden, ist aber extrem rechenintensiv. Selbst für ein vergleichsweise kleines Pre-Training werden schnell 300 000 GPU-Stunden und mehr benötigt. Ohne Supercomputer würde allein das über 34 Jahre dauern.

Der LAION-Datensatz, den Sie mit veröffentlicht haben, kann zum Trainieren neuer KI-Modelle verwendet werden. Was können diese KI-Modelle?

Dr. Jenia Jitsev: Eine eindrucksvolle Funktion ist die Bildgenerierung. Der Open-Source-Bildgenerator Stable Diffusion, der mit unseren Daten trainiert wurde, ist in der Lage, auf Befehl Bilder zu produzieren. Die Befehle können ganz frei in natürlicher Sprache eingegeben werden, ähnlich wie bei einer Google-Suche. So etwas kannte man bis jetzt nur von nicht-öffentlichen, kommerziellen Modellen wie DALL-E 2.

Es ist überwältigend, welche Kreativität einem diese neuen Modelle ermöglichen. Man kann damit etwa das Aussehen von Gebäuden und ihre Umgebung gestalten. Die erzeugten Bilder sind nicht nur irgendein grafisches Durcheinander. Sie haben einen konsistenten Kern, ein konsistentes Layout und berücksichtigen die Lichtverhältnisse, Reflexionen und Schatten, so wie man es von realen Bildern kennt. Die Bildinformationen sind aufeinander abgestimmt und zeigen ein grundlegendes Verständnis der Welt und wie die Dinge darin angeordnet sind. Hier handelt es sich um ein echtes wissenschaftliches Hardcore-Problem aus dem Gebiet der Computerwissenschaften und des maschinellen Lernens. Jahrzehntelang hat man schon versucht, dieses zu lösen.

Viele KI-Modelle, speziell Sprachmodelle, sind erstaunlich flexibel. Der kommerzielle Chatbot ChatGPT von OpenAI kann wissenschaftliche Arbeiten und Gedichte formulieren, Programmcode schreiben und hat kürzlich die ersten akademischen Examina bestanden. Wie universell sind demgegenüber die aktuellen Text-Bild-KIs? Können die mehr, als nur schöne Bilder zu generieren?

Dr. Mehdi Cherti: Ja, absolut, die Einsatzmöglichkeiten sind schier endlos. Die Anwendungen reichen von den Materialwissenschaften über die Entwicklung neuer Batteriekomponenten bis hin zur Vorhersage der Sonnenaktivität anhand von Satellitenbildern. Ein wichtiger Bereich sind auch Anwendungen in der Medizin. Schon ältere, einfachere Modelle waren Dermatologen bei der Auswertung von Bildern zur Erkennung von Hautkrebs überlegen. Es gibt bereits eine entsprechende praktische Anwendung, die läuft sogar auf dem Smartphone. Die jüngsten Entwicklungen im Language-Vision-Learning eröffnen aber Perspektiven, die noch weit darüber hinausgehen. So kann man verschiedene Formen der medizinischen Bildgebung wie Röntgendiagnostik, Ultraschall, MRT und so weiter nutzen, um Text-Bild-Modelle zu schaffen, die Ärzte oder auch Laien bei komplexen Diagnosen unterstützen.

Ein weiteres Beispiel ist die Navigation von Robotern. In einer kürzlich erschienen Arbeit wurde mit einem Modell, das wir auch zur Validierung unserer Daten nutzen, die generische Steuerung eines Roboters ermöglicht. Der Roboter findet sich selbstständig in seiner Umgebung zurecht und folgt einer Route auf der Grundlage frei formulierter Anweisungen. Die damit verbundenen Fähigkeiten sind auch wichtig für das autonome Fahren, wenn es darum geht, Objekte auf und neben der Straße zu identifizieren oder Fahrzeuge ans Ziel zu führen.

Die Modelle können neben Bildern auch Sounds bearbeiten, beispielsweise um Musik zu komponieren oder Stimmen zu erkennen. Dabei wird ausgenutzt, dass sich Töne auf einem Computer als bildähnliche Objekte darstellen lassen, als sogenanntes Spektrogramm. Oder man kann den neuronalen Netzwerken beibringen aus einigen groben 2D-Skizzen und einem Text 3D-Modelle zu erstellen, zum Beispiel von Gebäuden, was die Arbeit von Designern enorm erleichtern kann. Diese können sich dann noch mehr auf kreative Aspekte und weniger auf technische Routinen konzentrieren.

Bild2-600
Abb.: So stellt sich der KI-Bildgenerator Stable Diffusion ein Superrechner-Zentrum in einem grünen Wald vor.

Dr. Jenia Jitsev: Ein wichtiger Aspekt ist das sogenannte selbstüberwachte Lernen, mit dem die Modelle Sprache und Sehen gemeinsam erlernen. Frühere Ansätze lernten entweder Bilder zu erkennen oder Texte, aber nicht beides gleichzeitig. Dazu benötigte man viele, gut kuratierte Trainingsdaten. Jetzt können dagegen sowohl die Bild- als auch die Sprachdaten inkonsistent und teilweise fehlerhaft sein.

Dass es funktioniert, ist letztlich eine Frage der Skalierung.

Wenn man ein Modell für maschinelles Lernen nimmt und damit auf immer größere Skalen geht, dann passieren zwei Dinge. Erstens verbessern sich einige Funktionen messbar schon auf kleineren Skalen. Zweitens kann es passieren, dass in den oberen Skalenbereichen plötzlich weitere Funktionalitäten auftauchen, die auf den unteren und mittleren Skalen überhaupt nicht vorhanden sind. Indem man also die Trainingsdauer für das Netzwerkmodell und die Größe des Datensatzes erhöht, verbessert sich die Performance und die Genauigkeit. Und in den oberen Skalenbereichen treten auf einmal bestimmte emergente Funktionalitäten auf.

Der große Durchbruch gelang vor einigen Jahren, als man erkannte, dass die Netzmodelle umso robuster und effizienter werden, je umfangreicher sie im Voraus mit allgemeinen Daten auf ausreichend großen Skalen trainiert werden. Das geht so weit, dass danach völlig neue Aufgaben schon nach wenigen Wiederholungen oder gleich beim ersten Mal zufriedenstellend ausgeführt werden – was auch als Zero-Shot-Learning bezeichnet wird.

Wie funktioniert dieses Zero-Shot-Learning konkret in der Praxis?

Dr. Mehdi Cherti: Darin liegt der große Unterschied zum traditionellen maschinellen Lernen. Wenn man den Modellen früher beibringen wollte, 100 000 verschiedene Pflanzenarten zu unterscheiden, dann musste man für jede einzelne Pflanzenart Hunderte oder sogar Tausende von Beispielbildern sammeln, die alle korrekt beschriftet sein müssen, was schwierig bis unmöglich ist. Exotische Pflanzen, von denen es nur ein oder zwei Bilder gibt, kann ein solches System nicht lernen.

Die neuen generalistischen, selbst-überwachten Modelle werden hingegen im Voraus über einen langen Zeitraum mit allgemeinen Daten trainiert. In der Regel nutzt man dafür recht einfache, allgemeine Aufgaben. Die resultierenden Modelle werden auch als „foundation model“ oder „Basismodell“ bezeichnet. Für ein Basismodell wie CLIP, das wir trainiert haben, besteht eine solche Aufgabe beispielswiese darin, zu erkennen, ob ein Bild und eine Textbeschriftung zusammenpassen oder nicht. Dazu nutzt man Bild-Text-Paare, die in Datensätzen wie unserem LAION-5B-Datensatz bereitgestellt werden.

Die Basismodelle sind nach entsprechendem Vortraining so robust, dass sie in der Lage sind, jeden neuen visuellen Typ selbständig zu erkennen und zu klassifizieren. Für das Erlernen von 100 000 neuen Pflanzenarten sind dann nur wenige Beispiele pro Pflanze nötig. Die neuen Modelle, die mit unserem offenen Datensatz trainiert werden, lernen also sehr dateneffizient und benötigen nur wenige Bilder oder liegen auf Anhieb richtig, was auch als „Few-Shot-Learning“ oder „Zero-Shot-Learning“ bezeichnet wird.

Wie weit ist Ihr freier Ansatz mittlerweile, auch im Vergleich zu kommerziellen Alternativen?

Dr. Jenia Jitsev: Wir stehen noch ganz am Anfang, was die Arbeit mit sehr großen Datensätzen angeht. In Tests zum Zero-Shot-Learning schneiden Modelle, die mit unseren freien Daten trainiert wurden, aber bereits ähnlich gut ab wie Modelle von nicht-öffentlichen kommerziellen Anbietern wie OpenAI. Die Demonstration, dass es mit frei verfügbaren Daten aus dem öffentlichen Internet funktioniert, war auch einer der Hauptgründe, warum wir diese hohe Auszeichnung bei der NeurIPS-Konferenz Ende letzten Jahres erhalten haben. Davor wusste niemand, was passiert, wenn man Modelle auf einem so großen unkuratierten Datensatz aufbaut.

Der LAION-5B-Datensatz, den wir genutzt haben, besteht aus 5,8 Milliarden Text-Bild-Paaren. Die Daten wurden mit relativ geringem menschlichen Arbeitsaufwand automatisiert gewonnen. Das macht man mit sogenannten Crawlern, die das gesamte Internet scannen. Die gesammelten Daten wurden zunächst mit einem vortrainierten CLIP-Modell von OpenAI verarbeitet, das öffentlich zugänglich ist. Dies war sicherlich einer der Gründe für die guten Ergebnisse. Spätere Tests haben aber gezeigt, dass der Ansatz auch ohne diesen Filter funktioniert. Die Performance geht dann etwas zurück, aber das lässt sich durch noch mehr Daten ausgleichen. Wir haben also gezeigt, dass es im Prinzip tatsächlich möglich ist, funktionierende selbstlernende Modelle einfach nur mit Daten aus dem freien Internet aufzubauen. Diese Modelle stehen nun Forscher:innen frei zur Verfügung, um ihre Stärken und Schwächen gemeinsam zu untersuchen, was eine weitere gemeinsame Entwicklung ermöglicht.

Wandel gestalten: Das ist unser Antrieb im Forschungszentrum Jülich. Als Mitglied der Helmholtz-Gemeinschaft mit rund 6.400 Beschäftigten erforschen wir Optionen für die digitalisierte Gesellschaft, ein klimaschonendes Energiesystem und Ressourcen schützendes Wirtschaften. Natur-, Lebens- und Technikwissenschaften in den Bereichen Information, Energie und Bioökonomie verbinden wir mit besonderer Expertise im Höchstleistungsrechnen und setzen einzigartige wissenschaftliche Infrastrukturen ein.