© Max Planck Institute
Author profile picture

Für diejenigen, die sich immer noch von dem erholen, was uns Midjourney und Dall-Es KI-gestützte Bilderzeugung gebracht haben, gibt es eine beunruhigende Nachricht: Wir haben die Grenzen der künstlichen Intelligenz noch nicht erreicht. Die Fähigkeit von KI-Tools, Bilder zu manipulieren, nimmt weiter zu. Das jüngste Beispiel wird in einer Forschungsarbeit des Max-Planck-Instituts gezeigt. Vorerst ist es “nur” eine Forschungsarbeit, aber eine sehr beeindruckende, die es dem Benutzer ermöglicht, Elemente eines Bildes zu ziehen, um ihr Aussehen zu verändern.

Falls Sie es noch nicht verstanden haben, hier ist ein Beispiel:

Sie können nicht nur die Abmessungen eines Autos ändern oder ein Lächeln durch einfaches Klicken und Ziehen in ein Stirnrunzeln verwandeln, sondern auch das Motiv eines Bildes drehen, als wäre es ein 3D-Modell – zum Beispiel die Blickrichtung einer Person ändern. Eine weitere Möglichkeit besteht darin, die Spiegelungen auf einem See oder die Höhe eines Berges mit ein paar Klicks anzupassen.

DragGAN

Die Erstellung visueller Inhalte, die den Bedürfnissen der Benutzer entsprechen, erfordert oft eine präzise und flexible Kontrolle über Attribute wie Pose, Form, Ausdruck und Layout der generierten Objekte. Traditionelle Methoden zur Steuerung von Generative Adversarial Networks (GANs) stützen sich auf manuell beschriftete Daten oder vorherige 3D-Modelle. Diesen Ansätzen mangelt es jedoch oft an Präzision, Flexibilität und Allgemeinheit. Als Antwort auf diese Unzulänglichkeiten stellt das Max-Planck-Institut DragGAN vor, einen neuartigen Ansatz, der es dem Benutzer ermöglicht, interaktiv beliebige Punkte in einem Bild an die gewünschte Stelle zu “ziehen”.

DragGAN © Max Planck Institute
DragGAN © Max Planck Institute

DragGAN besteht aus zwei Hauptkomponenten: einer merkmalsbasierten Bewegungsüberwachung und einem neuen Punktverfolgungsansatz. Die Bewegungsüberwachung ermöglicht die benutzergeführte Bewegung von Griffpunkten im Bild zu Zielpositionen. Der Punktverfolgungsansatz nutzt markante Generatormerkmale, um die Positionen der Griffpunkte zu verfolgen, während sie bewegt werden. Auf diese Weise können Benutzer Bilder präzise verformen und Attribute wie Pose, Form, Ausdruck und Layout in verschiedenen Kategorien wie Tiere, Autos, Menschen und Landschaften beeinflussen.

Flexibel, präzise, generisch

Diese Methode stellt eine flexiblere, präzisere und generische Methode zur Steuerung von GANs dar, die es dem Benutzer ermöglicht, eine beliebige Anzahl von Griffpunkten und entsprechenden Zielpunkten auf einem Bild auszuwählen. Das Ziel ist es, diese Griffpunkte zu bewegen, um ihre jeweiligen Ziele zu erreichen. Dieser Ansatz ermöglicht es dem Benutzer, eine Reihe von räumlichen Attributen zu kontrollieren, unabhängig von den Objektkategorien. Damit unterscheidet sich DragGAN von bisherigen Methoden, die oft nicht auf neue Objektkategorien verallgemeinert werden können oder nur eine begrenzte Kontrolle über räumliche Attribute bieten.

Der Ansatz von DragGAN stützt sich nicht auf andere Netzwerke wie RAFT, was ihn für Manipulationsaufgaben effizient macht. Die Forscher geben an, dass er in den meisten Fällen nur wenige Sekunden auf einer RTX 3090 GPU benötigt. Dies ermöglicht interaktive Live-Bearbeitungssitzungen, bei denen verschiedene Layouts schnell durchgespielt werden können, bis das gewünschte Ergebnis erreicht ist.

© Max Planck Institute
DragGAN © Max Planck Institute

Im Rahmen einer umfassenden Evaluierung verschiedener Datensätze hat DragGAN seine Fähigkeit unter Beweis gestellt, benutzerdefinierte Griffpunkte an Zielpositionen zu verschieben und so verschiedene Manipulationseffekte in vielen Objektkategorien zu erzielen. Ein wesentliches Merkmal von DragGAN ist die Möglichkeit der Eingabe einer binären Maske durch den Benutzer, die den zu bewegenden Bereich in einem Bild angibt. Dies ermöglicht eine nuanciertere Steuerung von Manipulationen und trägt dazu bei, Mehrdeutigkeiten zu reduzieren und bestimmte Regionen zu fixieren.

Beschränkungen und Missbrauch

Die Forscher warnen jedoch auch, dass DragGAN seine Grenzen hat. Obwohl es über einige Extrapolationsfähigkeiten verfügt, kann die Qualität der Bearbeitung durch die Vielfalt der Trainingsdaten beeinträchtigt werden. Außerdem leiden Griffpunkte in texturlosen Regionen manchmal unter Drift bei der Verfolgung. Trotz dieser Einschränkungen bietet DragGAN einen effektiven, interaktiven Ansatz für die Bildbearbeitung.

Die Autoren der Studie weisen auf das Missbrauchspotenzial der Technologie hin, da sie dazu verwendet werden kann, Bilder einer realen Person mit einer falschen Pose, einem falschen Ausdruck oder einer falschen Form zu erstellen. Sie betonen, wie wichtig es ist, bei der Anwendung ihres Ansatzes die Persönlichkeitsrechte und Datenschutzbestimmungen zu beachten.

Zusammenfassend lässt sich sagen, dass DragGAN einen bedeutenden Fortschritt auf dem Gebiet der GAN-basierten Bildmanipulation darstellt. Die Methode nutzt ein vortrainiertes GAN, um Bilder zu erzeugen, die sich eng an die Benutzereingaben anlehnen und dabei realistisch bleiben. Durch die Optimierung latenter Codes und ein Punktverfolgungsverfahren bietet DragGAN pixelgenaue Bildverformungen und interaktive Leistung. Die Autoren hoffen, diese punktbasierte Bearbeitung in Zukunft auf generative 3D-Modelle ausweiten zu können.