KI GENERIERT BILDER AUS TEXTVORGABE

Hey Dall-E 2, ich brauch ein Bild von Teddybären die als verrückte Wissenschaftler glitzernde Chemikalien mischen

Sieht aus wie eine Szene aus dem neuen Frankenstein-Film: Teddys in Laborkitteln, die mit bunten Chemikalien hantieren. Doch dieses Bild ist kein Filmtrailer, sondern das Ergebnis der KI-Bildbearbeitung von Dall-E 2. Das Modell kann aus einer textlichen Beschreibung hochauflösende Bilder erstellen – und dabei die abstrusesten Fantasien bedienen.

Quelle: Open AI

Was ist Dall-E 2?

Das KI-Modell Dall-E 2 ist ein sogenannter „Generative Query Network“ (GQN). Das bedeutet, dass es aus einer textlichen Beschreibung ein hochauflösendes Bild erstellen kann. Die KI wurde von OpenAI entwickelt und ist die Weiterentwicklung des bereits 2016 vorgestellten Modells Dall-E.

Wie funktioniert Dall-E 2?

Das Modell basiert auf dem sogenannten „Transformer“-Algorithmus, der in der NLP (Natural Language Processing) eingesetzt wird. Dieser Algorithmus kann Texte in eine numerische Repräsentation umwandeln und so verarbeiten. Auf diese Weise kann das Modell aus einer textlichen Beschreibung ein Bild erstellen.

Dall-E ist also in der Lage, aus einer textlichen Beschreibung hochauflösende Bilder zu generieren – und dabei die diffusesten Fantasien zu bedienen. So kann es beispielsweise aus dem Satz „Teddy bears mixing sparkling chemicals as mad scientists“ (Teddybären, die glitzernde Chemikalien als verrückte Wissenschaftler mischen) das oben gezeigte Bild generieren.

Was macht Dall-E 2 besser als der Vorgänger?

Die neue Version von Dall-E verspricht jedoch einige Verbesserungen gegenüber dem Vorgänger. So soll die neue KI bessere Bilder mit höherer Auflösung und geringerer Wartezeit beim Rendering liefern. Zudem kann die neue Version nun Bilder erstmals bearbeiten – etwa, um Objekte im Bild anders anzuordnen.

Zitat OpenAI:

„Dall-E 2 hat die Beziehung zwischen Bildern und dem zu ihrer Beschreibung verwendeten Text gelernt. Es verwendet einen Prozess namens Diffusion, der mit einem Muster aus zufälligen Punkten beginnt und dieses Muster allmählich in Richtung eines Bildes ändert, wenn es bestimmte Aspekte dieses Bildes erkennt.“

Wer darf damit Experimentieren?

Wer mit dem KI-Modell experimentieren möchte, kann sich auf der Webseite von OpenAI in die Warteliste eintragen lassen und sich dafür bewerben. Ich habe mich eintragen lassen und wurde zum testen eingeladen! Du möchtest sehen, was mit Dalle 2 alles möglich ist? Dann schau mal hier

Was kann man von dieser Technologie erwarten?

Die Technologie ist noch sehr jung. In Zukunft könnte sich die Situation jedoch ändern und die KI-Bildgenerierung durch Dall-E zum Massenphänomen werden. Wenn das Modell weiterhin verbessert wird, könnte es in Zukunft für jedermann möglich sein, aus einem Satz Text ein realistisches Bild zu generieren – mit allen Details und Facetten.

Man könnte sich aufwendige Fotoshootings sparen und stattdessen einfach einen Text verfassen und die KI das Bild generieren lassen. KI könnte also dazu beitragen, die Bildbearbeitung für viele Menschen zugänglicher und einfacher zu machen.

Doch bis es soweit ist, wird noch etwas Zeit ins Land gehen. Die Technologie ist noch sehr jung und muss sich erst weiter entwickeln, bis sie der breiten Masse zugänglich gemacht wird.