Die „Blackbox“ auspacken, um bessere KI-Modelle zu erstellen

Bilder zum Herunterladen auf der Website des MIT News-Büros werden nichtkommerziellen Unternehmen, der Presse und der Öffentlichkeit unter einer Creative Commons-Lizenz „Namensnennung, nicht kommerziell, keine Bearbeitung“ zur Verfügung gestellt. Sie dürfen die bereitgestellten Bilder nicht verändern, außer sie auf die richtige Größe zuzuschneiden. Bei der Reproduktion von Bildern muss eine Kreditlinie in Anspruch genommen werden; Wenn dies unten nicht angegeben ist, nennen Sie die Bilder „MIT“.

Vorheriges Bild Nächstes Bild

Wenn Deep-Learning-Modelle in der realen Welt eingesetzt werden, beispielsweise um Finanzbetrug durch Kreditkartenaktivitäten aufzudecken oder Krebs in medizinischen Bildern zu erkennen, sind sie oft in der Lage, Menschen zu übertreffen.

Aber was genau lernen diese Deep-Learning-Modelle? Lernt ein Modell, das darauf trainiert ist, beispielsweise Hautkrebs in klinischen Bildern zu erkennen, tatsächlich die Farben und Texturen von Krebsgewebe, oder markiert es andere Merkmale oder Muster?

Diese leistungsstarken Modelle für maschinelles Lernen basieren typischerweise auf künstlichen neuronalen Netzen, die über Millionen von Knoten verfügen können, die Daten verarbeiten, um Vorhersagen zu treffen. Aufgrund ihrer Komplexität bezeichnen Forscher diese Modelle oft als „Black Boxes“, weil selbst die Wissenschaftler, die sie bauen, nicht alles verstehen, was sich unter der Haube abspielt.

Stefanie Jegelka gibt sich mit dieser „Black-Box“-Erklärung nicht zufrieden. Jegelka, ein neuer außerordentlicher Professor an der MIT-Abteilung für Elektrotechnik und Informatik, beschäftigt sich intensiv mit Deep Learning, um zu verstehen, was diese Modelle lernen können, wie sie sich verhalten und wie bestimmte Vorinformationen in diese Modelle eingebaut werden können.

„Was ein Deep-Learning-Modell letztendlich lernen wird, hängt von so vielen Faktoren ab. Der Aufbau eines in der Praxis relevanten Verständnisses hilft uns jedoch, bessere Modelle zu entwerfen und zu verstehen, was in ihnen vorgeht, damit wir wissen, wann wir ein Modell einsetzen können und wann nicht. Das ist von entscheidender Bedeutung“, sagt Jegelka, der auch Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL) und des Institute for Data, Systems, and Society (IDSS) ist.

Jegelka interessiert sich insbesondere für die Optimierung von Modellen des maschinellen Lernens, wenn die Eingabedaten in Form von Diagrammen vorliegen. Diagrammdaten stellen besondere Herausforderungen dar: Beispielsweise bestehen die Informationen in den Daten sowohl aus Informationen über einzelne Knoten und Kanten als auch aus der Struktur – was mit was verbunden ist. Darüber hinaus weisen Diagramme mathematische Symmetrien auf, die vom Modell des maschinellen Lernens berücksichtigt werden müssen, damit beispielsweise dasselbe Diagramm immer zu derselben Vorhersage führt. Solche Symmetrien in ein Modell für maschinelles Lernen einzubauen ist normalerweise nicht einfach.

Nehmen wir zum Beispiel Moleküle. Moleküle können als Graphen dargestellt werden, mit Scheitelpunkten, die Atomen entsprechen, und Kanten, die chemischen Bindungen zwischen ihnen entsprechen. Pharmaunternehmen möchten möglicherweise Deep Learning nutzen, um die Eigenschaften vieler Moleküle schnell vorherzusagen und so die Zahl einzugrenzen, die sie im Labor physisch testen müssen.

Jegelka untersucht Methoden zur Erstellung mathematischer Modelle für maschinelles Lernen, die Diagrammdaten effektiv als Eingabe verwenden und etwas anderes ausgeben können, in diesem Fall eine Vorhersage der chemischen Eigenschaften eines Moleküls. Dies stellt eine besondere Herausforderung dar, da die Eigenschaften eines Moleküls nicht nur von den darin enthaltenen Atomen, sondern auch von den Verbindungen zwischen ihnen bestimmt werden.

Weitere Beispiele für maschinelles Lernen in Diagrammen sind Verkehrsrouting, Chipdesign und Empfehlungssysteme.

Der Entwurf dieser Modelle wird noch dadurch erschwert, dass sich die zu ihrem Training verwendeten Daten oft von den Daten unterscheiden, die die Modelle in der Praxis sehen. Vielleicht wurde das Modell mithilfe kleiner molekularer Diagramme oder Verkehrsnetze trainiert, aber die Diagramme, die es nach der Implementierung sieht, sind größer oder komplexer.

Was können Forscher in diesem Fall von diesem Modell erwarten, und wird es in der Praxis noch funktionieren, wenn die realen Daten anders sind?

„Ihr Modell wird aufgrund einiger Härteprobleme in der Informatik nicht in der Lage sein, alles zu lernen, aber was Sie lernen können und was nicht, hängt davon ab, wie Sie das Modell einrichten“, sagt Jegelka.

Sie nähert sich dieser Frage, indem sie ihre Leidenschaft für Algorithmen und diskrete Mathematik mit ihrer Begeisterung für maschinelles Lernen verbindet.

Von Schmetterlingen bis Bioinformatik

Jegelka wuchs in einer kleinen Stadt in Deutschland auf und interessierte sich bereits als Gymnasiastin für Naturwissenschaften. Ein unterstützender Lehrer ermutigte sie, an einem internationalen Wissenschaftswettbewerb teilzunehmen. Sie und ihre Teamkollegen aus den USA und Hongkong gewannen einen Preis für eine Website über Schmetterlinge, die sie in drei Sprachen erstellt hatten.

„Für unser Projekt haben wir an einer örtlichen Fachhochschule Flügel mit einem Rasterelektronenmikroskop aufgenommen. Ich hatte auch die Gelegenheit, eine Hochgeschwindigkeitskamera bei Mercedes-Benz zu nutzen – diese Kamera filmte normalerweise Verbrennungsmotoren –, mit der ich ein Zeitlupenvideo der Bewegung der Flügel eines Schmetterlings aufgenommen habe. Das war das erste Mal, dass ich wirklich mit Wissenschaft und Forschung in Berührung kam“, erinnert sie sich.

Jegelka war sowohl von der Biologie als auch von der Mathematik fasziniert und beschloss, Bioinformatik an der Universität Tübingen und der University of Texas in Austin zu studieren. Als Studentin hatte sie einige Gelegenheiten zur Forschung, darunter ein Praktikum in Computational Neuroscience an der Georgetown University, war sich aber nicht sicher, welchen Beruf sie einschlagen sollte.

Als sie für ihr letztes Studienjahr zurückkam, zog Jegelka zu zwei Mitbewohnern, die als wissenschaftliche Mitarbeiter am Max-Planck-Institut in Tübingen arbeiteten.

„Sie arbeiteten am maschinellen Lernen, und das klang für mich wirklich cool. Da ich meine Bachelorarbeit schreiben musste, habe ich beim Institut nachgefragt, ob sie ein Projekt für mich hätten. Ich habe am Max-Planck-Institut angefangen, mich mit maschinellem Lernen zu beschäftigen, und es hat mir sehr gut gefallen. Ich habe dort so viel gelernt und es war ein großartiger Ort für die Forschung“, sagt sie.

Sie blieb am Max-Planck-Institut, um ihre Masterarbeit fertigzustellen, und begann dann ihre Doktorarbeit im Bereich maschinelles Lernen am Max-Planck-Institut und an der Eidgenössischen Technischen Hochschule.

Während ihrer Doktorarbeit untersuchte sie, wie Konzepte der diskreten Mathematik zur Verbesserung maschineller Lerntechniken beitragen können.

Lehrmodelle zum Lernen

Je mehr Jegelka über maschinelles Lernen lernte, desto mehr faszinierte sie die Herausforderung, das Verhalten von Modellen zu verstehen und dieses Verhalten zu steuern.

„Mit maschinellem Lernen kann man so viel erreichen, aber nur, wenn man über das richtige Modell und die richtigen Daten verfügt. Es ist nicht nur eine Black-Box-Sache, bei der man es auf die Daten wirft und es funktioniert. Man muss tatsächlich darüber nachdenken, welche Eigenschaften es hat und was das Modell lernen und tun soll“, sagt sie.

Nach seinem Postdoc-Abschluss an der University of California in Berkeley war Jegelka von der Forschung begeistert und entschied sich für eine Karriere in der Wissenschaft. Sie kam 2015 als Assistenzprofessorin an die Fakultät des MIT.

„Was ich am MIT von Anfang an wirklich geliebt habe, war, dass den Menschen Forschung und Kreativität wirklich am Herzen liegen. Das ist es, was ich am MIT am meisten schätze. Die Menschen hier legen großen Wert auf Originalität und Tiefe der Recherche“, sagt sie.

Dieser Fokus auf Kreativität hat es Jegelka ermöglicht, ein breites Themenspektrum zu erkunden.

In Zusammenarbeit mit anderen Fakultäten am MIT untersucht sie Anwendungen des maschinellen Lernens in Biologie, Bildgebung, Computer Vision und Materialwissenschaften.

Aber was Jegelka wirklich antreibt, ist die Auseinandersetzung mit den Grundlagen des maschinellen Lernens und neuerdings auch mit der Frage der Robustheit. Oft schneidet ein Modell bei Trainingsdaten gut ab, seine Leistung verschlechtert sich jedoch, wenn es bei leicht unterschiedlichen Daten eingesetzt wird. Durch den Einbau von Vorwissen in ein Modell kann es zuverlässiger werden, aber zu verstehen, welche Informationen das Modell für den Erfolg benötigt und wie man diese einbaut, sei nicht so einfach, sagt sie.

Sie erforscht außerdem Methoden zur Verbesserung der Leistung maschineller Lernmodelle zur Bildklassifizierung.

Bildklassifizierungsmodelle gibt es überall, von Gesichtserkennungssystemen auf Mobiltelefonen bis hin zu Tools, die gefälschte Konten in sozialen Medien identifizieren. Für das Training dieser Modelle sind riesige Datenmengen erforderlich. Da es jedoch für den Menschen kostspielig ist, Millionen von Bildern manuell zu kennzeichnen, verwenden Forscher häufig unbeschriftete Datensätze, um die Modelle vorab zu trainieren.

Diese Modelle verwenden die erlernten Darstellungen dann wieder, wenn sie später für eine bestimmte Aufgabe optimiert werden.

Im Idealfall möchten Forscher, dass das Modell während des Vortrainings so viel wie möglich lernt, damit es dieses Wissen auf seine nachgelagerte Aufgabe anwenden kann. In der Praxis lernen diese Modelle jedoch oft nur ein paar einfache Korrelationen – etwa, dass ein Bild Sonnenschein und ein anderes Schatten hat – und verwenden diese „Abkürzungen“ zur Klassifizierung von Bildern.

„Wir haben gezeigt, dass dies ein Problem beim ‚kontrastiven Lernen‘ ist, das sowohl theoretisch als auch empirisch eine Standardtechnik für das Vortraining ist. Wir zeigen aber auch, dass Sie die Arten von Informationen, die das Modell darstellen lernt, beeinflussen können, indem Sie die Datentypen ändern, die Sie dem Modell anzeigen. „Das ist ein Schritt zum Verständnis dessen, was Modelle in der Praxis tatsächlich leisten werden“, sagt sie.

Forscher verstehen immer noch nicht alles, was in einem Deep-Learning-Modell vor sich geht, oder Details darüber, wie sie beeinflussen können, was ein Modell lernt und wie es sich verhält, aber Jegelka freut sich darauf, diese Themen weiter zu erforschen.

„Oft beobachten wir beim maschinellen Lernen etwas in der Praxis und versuchen, es theoretisch zu verstehen. Das ist eine große Herausforderung. Sie möchten ein Verständnis aufbauen, das mit dem übereinstimmt, was Sie in der Praxis sehen, damit Sie es besser machen können. Wir stehen noch am Anfang des Verständnisses“, sagt sie.

Außerhalb des Labors ist Jegelka ein Fan von Musik, Kunst, Reisen und Radfahren. Doch heutzutage verbringt sie den Großteil ihrer Freizeit gerne mit ihrer Tochter im Vorschulalter.

Vorheriger Artikel Nächster Artikel

Von Schmetterlingen bis BioinformatikLehrmodelle zum Lernen