ChatGPT kann jetzt Bilder generieren, und diese sind erschreckend detailliert.
Am Mittwoch veröffentlichte OpenAI, ein KI-Startup aus San Francisco, einer kleinen Gruppe von Testern eine neue Version seines DALL-E-Bildgenerators und integrierte die Technologie in ChatGPT, den beliebten Online-Chatbot.
Das Unternehmen mit der Bezeichnung DALL-E 3 sagte, es könne Bilder erzeugen, die überzeugender seien als frühere Versionen der Technologie, und zeige ein besonderes Talent für Bilder mit Buchstaben, Zahlen und menschlichen Händen.
„Es ist viel besser darin, die Wünsche des Benutzers zu verstehen und darzustellen“, sagte Aditya Ramesh, Forscher bei OpenAI, und fügte hinzu, dass die Technologie darauf ausgelegt sei, ein genaueres Verständnis der englischen Sprache zu erlangen.
Durch das Hinzufügen der neuesten Version von DALL-E zu ChatGPT festigt OpenAI seinen Chatbot als Hub für generative KI, der selbst Texte, Bilder, Töne, Software und andere digitale Medien produzieren kann. Seit ChatGPT letztes Jahr viral ging, hat es einen Wettlauf unter den Technologiegiganten aus dem Silicon Valley begonnen, mit Fortschritten an der Spitze der künstlichen Intelligenz zu stehen.
Google hat am Dienstag eine neue Version seines Chatbots Bard veröffentlicht, der eine Verbindung zu vielen der beliebtesten Dienste des Unternehmens herstellt, darunter Gmail, YouTube und Docs. Midjourney und Stable Diffusion, zwei weitere Image-Builder, haben diesen Sommer ihre Modelle aktualisiert.
OpenAI hat seit langem Möglichkeiten aufgezeigt, seinen Chatbot mit anderen Online-Diensten zu verbinden, darunter Expedia, OpenTable und Wikipedia. Doch es ist das erste Mal, dass das Startup einen Chatbot mit einem Bildgenerator kombiniert.
DALL-E und ChatGPT waren bisher zwei separate Anwendungen. Aber mit der neuesten Version können Benutzer ChatGPT jetzt verwenden, um digitale Bilder zu erstellen, indem sie einfach beschreiben, was sie sehen möchten. Oder sie können Bilder mithilfe von Chatbot-generierten Beschreibungen erstellen und so den Prozess der Erstellung von Grafiken, Kunstwerken und anderen Medien automatisieren.
In einer Demo demonstrierte der OpenAI-Forscher Gabriel Goh diese Woche, wie ChatGPT jetzt detaillierte Textbeschreibungen generieren kann, die dann zur Erstellung von Bildern verwendet werden. Nachdem der Bot beispielsweise Logobeschreibungen für ein Restaurant namens Mountain Ramen erstellt hatte, generierte er innerhalb von Sekunden mehrere Bilder aus diesen Beschreibungen.
Die neue Version von DALL-E kann Bilder aus Beschreibungen mit mehreren Absätzen erzeugen und folgt genau den Anweisungen, die in allen Einzelheiten beschrieben werden, sagte Herr Goh. Wie alle Bildgeneratoren – und andere KI-Systeme – seien auch sie fehleranfällig, sagte er.
Da OpenAI an der Verbesserung der Technologie arbeitet, wird es DALL-E 3 erst im nächsten Monat der breiten Öffentlichkeit zugänglich machen. DALL-E 3 wird dann über ChatGPT Plus verfügbar sein, ein Dienst, der 20 US-Dollar pro Monat kostet.
Experten warnen davor, dass bildgenerierende Technologien dazu genutzt werden könnten, große Mengen an Fehlinformationen online zu verbreiten. Um sich davor zu schützen, hat OpenAI mit DALL-E 3 Tools integriert, die problematische Themen wie sexuell eindeutige Bilder und Darstellungen von Persönlichkeiten des öffentlichen Lebens blockieren sollen. Das Unternehmen versucht außerdem, die Fähigkeit von DALL-E einzuschränken, den Stil bestimmter Künstler zu imitieren.
In den letzten Monaten wurde künstliche Intelligenz als Quelle visueller Fehlinformationen genutzt. Eine besonders erfundene und schlichte Parodie auf eine scheinbare Explosion im Pentagon löste im Mai unter anderem einen kurzen Abwärtstrend an der Börse aus. Auch Abstimmungsexperten sind besorgt über das Potenzial dieser Technologie Böswillig verwendet Während der großen Wahlen.
DALL-E 3 neigt dazu, Bilder zu erzeugen, die eher stilisiert als fotorealistisch sind, sagte Sandhini Agarwal, ein OpenAI-Forscher mit Schwerpunkt auf Sicherheit und Richtlinien. Sie räumte jedoch ein, dass man von einem Model verlangen könne, überzeugende Szenen zu produzieren, etwa die Art von körnigen Bildern, die von Überwachungskameras aufgenommen werden.
OpenAI plant größtenteils nicht, potenziell problematische Inhalte von DALL-E 3 zu blockieren. Ein solcher Ansatz sei „sehr weit gefasst“, da Bilder je nach Kontext, in dem sie erscheinen, harmlos oder gefährlich sein können, sagte Frau Agarwal .
„Es hängt wirklich davon ab, wo es verwendet wird und wie die Leute darüber sprechen“, sagte sie.