Neues Tool hebt hervor, was generative Modelle bei der Rekonstruktion einer Szene auslassen

Ein neues Tool zeigt, was KI-Modelle bei der Nachbildung einer Szene auslassen. Hier hat ein GAN oder generatives gegnerisches Netzwerk das Brautpaar aus seiner Rekonstruktion (rechts) des Fotos, das es zeichnen sollte (links), fallen gelassen. Bildnachweis: Massachusetts Institute of Technology

Jeder, der einige Zeit in sozialen Medien verbracht hat, hat wahrscheinlich bemerkt, dass GANs oder generative gegnerische Netzwerke bemerkenswert gut darin geworden sind, Gesichter zu zeichnen. Sie können vorhersagen, wie Sie im Alter aussehen und wie Sie als Berühmtheit aussehen würden. Aber wenn Sie einen GAN bitten, Szenen aus der größeren Welt zu zeichnen, werden die Dinge seltsam.

Eine neue Demo des MIT-IBM Watson AI Lab zeigt, was ein an Kirchen- und Monumentalszenen trainiertes Modell weglässt, wenn es beispielsweise eine eigene Version des Pantheons in Paris oder der Piazza di Spagna in Rom zeichnet. Die größere Studie Seeing What a GAN Cannot Generate wurde letzte Woche auf der International Conference on Computer Vision vorgestellt.

“Forscher konzentrieren sich in der Regel darauf, zu charakterisieren und zu verbessern, was ein maschinell lernendes System leisten kann, worauf es achtet und wie bestimmte Eingaben zu bestimmten Ergebnissen führen”, sagt David Bau, Doktorand am Department of Electrical Engineering and Computer Science des MIT und Labor für Informatik und künstliche Wissenschaft (CSAIL). “Wir hoffen, dass die Forscher mit dieser Arbeit der Charakterisierung der Daten genauso viel Aufmerksamkeit schenken werden, die diese Systeme ignorieren.”

In einem GAN arbeiten zwei neuronale Netze zusammen, um hyperrealistische Bilder zu erstellen, die nach gegebenen Beispielen gemustert sind. Bau interessierte sich für GANs als eine Möglichkeit, in neuronale Black-Box-Netze zu blicken, um die Gründe für ihre Entscheidungen zu verstehen. Ein früheres Tool, das zusammen mit seinem Berater, MIT-Professor Antonio Torralba, und dem IBM-Forscher Hendrik Strobelt entwickelt wurde, ermöglichte es, die Cluster künstlicher Neuronen zu identifizieren, die für die Organisation des Bildes in reale Kategorien wie Türen, Bäume und Wolken verantwortlich sind. Ein verwandtes Tool, GANPaint, ermöglicht es Amateurkünstlern, diese Funktionen von ihren eigenen Fotos hinzuzufügen und zu entfernen.

Eines Tages, als Bau einem Künstler bei der Verwendung von GANPaint half, stieß er auf ein Problem. “Wie üblich verfolgten wir die Zahlen und versuchten, den numerischen Rekonstruktionsverlust zu optimieren, um das Foto zu rekonstruieren”, sagt er. “Aber mein Berater hat uns immer ermutigt, über die Zahlen hinauszuschauen und die tatsächlichen Bilder zu hinterfragen. Als wir uns das ansahen, sprang das Phänomen sofort heraus: Menschen wurden selektiv ausgeschieden.”

So wie GANs und andere neuronale Netze Muster in Datenhaufen finden, ignorieren sie Muster ebenfalls. Bau und seine Kollegen trainierten verschiedene Arten von GANs für Innen- und Außenszenen. Aber egal, wo die Bilder aufgenommen wurden, die GANs ließen wichtige Details wie Menschen, Autos, Schilder, Brunnen und Möbelstücke konsequent weg, selbst wenn diese Objekte im Bild prominent auftauchten. In einer GAN-Rekonstruktion wird ein Paar Jungvermählten, die sich auf den Stufen einer Kirche küssen, ausgeblendet und hinterlässt eine unheimliche Hochzeitskleid-Textur an der Kathedralentür.

„Wenn GANs auf Objekte treffen, die sie nicht erzeugen können, scheinen sie sich vorzustellen, wie die Szene ohne sie aussehen würde“, sagt Strobelt. “Manchmal werden Menschen zu Büschen oder verschwinden ganz im Gebäude dahinter.”

Die Forscher vermuten, dass Maschinenfaulheit schuld sein könnte; Obwohl ein GAN darauf trainiert ist, überzeugende Bilder zu erstellen, kann es lernen, dass es einfacher ist, sich auf Gebäude und Landschaften zu konzentrieren und schwerer darzustellende Personen und Autos zu überspringen. Forscher wissen seit langem, dass GANs dazu neigen, einige statistisch aussagekräftige Details zu übersehen. Dies könnte jedoch die erste Studie sein, die zeigt, dass moderne GANs systematisch ganze Klassen von Objekten innerhalb eines Bildes weglassen können.

Eine KI, die einige Objekte aus ihren Darstellungen entfernt, kann ihre numerischen Ziele erreichen, während sie die für uns Menschen wichtigsten Details übersieht, sagt Bau. Da Ingenieure GANs verwenden, um synthetische Bilder zu generieren, um automatisierte Systeme wie selbstfahrende Autos zu trainieren, besteht die Gefahr, dass Personen, Schilder und andere kritische Informationen fallengelassen werden, ohne dass der Mensch es merkt. Es zeigt, warum die Modellleistung nicht allein an der Genauigkeit gemessen werden sollte, sagt Bau. “Wir müssen verstehen, was die Netzwerke sind und was nicht, um sicherzustellen, dass sie die Entscheidungen treffen, die wir von ihnen treffen sollen.”


Leave a Comment