Mit dem Release des OpenAI Bildgenerators Dall-E 3 habe ich mit Lernwiesel einen Blog mit ca. 30 Beiträgen zu Lernthemen erstellt. Ziel war es, in möglichst kurzer Zeit einen kompletten Blog zu erstellen und dabei nur thematisch passende, KI-generierte Bilder zu verwenden. Alle Bilder auf Lernwiesel.de sind KI-generiert.
ChatGPT Vision und Dall E-3 Prompts
Der Bildgenerator Dall-E in der Version 3 hat ein sehr gutes Prompt Understanding, d.h. das Modell kann auch komplexe Prompts in eine passende Bildkomposition umsetzen. Zum anderen können in Kombination mit der Vision-Fähigkeit von ChatGPT Bilder hochgeladen und deren Inhalte detailliert beschrieben werden, die dann wieder als Prompt zur Bildgenerierung verwendet werden können. Dies sollte theoretisch den Aufwand für die Bildgenerierung deutlich reduzieren und auch schwierige Kompositionen ohne größeren Aufwand ermöglichen.
Hintergrund
Alternative Bildgeneratoren wie Stable Diffusion, Midjourney oder Adobe Firefly haben aktuell nur ein eingeschränktes Promptverständnis, bei dem mit Halbsätzen das grobe Thema angerissen und mit einer Häufung bestimmter Keywords Stile oder Details hervorgehoben werden können. Die gezielte Umsetzung von bestimmten Kompositionen, Handlungen oder grafischen Elementen im Bild ist so ohne zusätzliche Bearbeitung kaum möglich.
Die Praktische Umsetzung
Im ersten Schritt habe ich auf verschiedenen Bildportalen nach passenden Stockbildern zu den Beiträgen gesucht. Diese wurden dann in ChatGPT hochgeladen, zuerst mit dem Prompt den Bildinhalt zu beschreiben, um dann im nächsten Prompt mit dieser Bildbeschreibung ein neues Bild zu erstellen. Alternativ kann die Bildvorlage auch sofort in Kombination mit dem Prompt, ein Bild mit dem gleichen Inhalt zu erstellen, hochgeladen werden. Wer Zeit sparen will, kann es so direkt machen, die Ergebnisse sind zumeist passend.
Verliert Dall-E3 jedoch für die Bildaussage wichtige Inhalte der Bildvorlage, oder man möchte eine spezifische Komposition erhalten, führt ein vorheriger Prompt zur Bildbeschreibung oft noch zum Erfolg.
Gegebenenfalls sollte der Prompt an einigen Stellen noch einmal angepasst werden, um die eigene Bildidee weiter zu verwirklichen oder um ggf. rechtliche Unsicherheiten zu vermeiden. (Siehe Abschnitt „Rechtliche Bedenken“)
Der grafische Stil
Für fast alle Bilder habe ich einen künstlerischen Stil gewählt, z.B. die Generierung als Aquarell. Einerseits ist Dall E-3 nicht in der Lage, realistische Bilder zu erzeugen (oder wird entsprechend zensiert), andererseits vertuschen diese Stile typische KI-Fehler, z.B. bei komplexeren Details oder Personen.
Die Generierung von Schriften und Textelementen ist mit Dall-E3 möglich, das Ergebnis ist in einigen Fällen korrekt und oft nahe dran. Die Konkurrenz beherrscht dies derzeit kaum, mit dem Release von Stable Diffusion 3 Medium wurde hier kürzlich im Open Source Bereich eine fähige Möglichkeit geschaffen. Der Einsatz dieses Modells ist allerdings aus vielen anderen Gründen nicht zu empfehlen.
Der Einsatz von Adobe Firefly
Mit Adobe Firefly (Modell Firefly Image 3) habe ich nur einige „oberflächliche Beiträge“ illustriert, d.h. Themen, bei denen es von Natur aus viele Bildmöglichkeiten gibt und die dargestellten Aktionen nicht sonderlich komplex sind oder grafische Elemente enthalten.
Als Beispiel dazu die Beiträge Ostern im Kindergarten und Fasching im Kindergarten.
Um einen ansprechenden Stil zu erhalten, waren auch einige Tests mit eigenen Bildreferenzen als Stilvorlage notwendig. Außerdem ist eine wesentlich größere Anzahl von Bildgenerierungen als bei Dall E-3 erforderlich, um ein gutes Ergebnis zu erzielen.
Die Prompts für Adobe Firefly habe ich mir über ChatGPT ausgeben lassen, mit dem Hinweis, die Bildbeschreibung als kurzen, präzisen Prompt für die Bildgenerierung auszugeben.
Die Textgenerierung
One-Shot Blogbeiträge
Da der Fokus nicht auf den Texten lag, habe ich hier zwecks Schnelligkeit sogenannte One-Shot-Prompts genutzt. Dabei wurde ein Beitragsthema grob zusammenkopiert und ein einziger Prompt mit dem Hinweis verwendet, den Text mit fehlenden Inhalten zu erweitern, neu zu strukturieren und komplett umzuschreiben. Dies führte bei meinen früheren Versuche mit ChatGPT-4 noch nicht zu den gewünschten Ergebnissen, da die Texte eine geringe Länge aufwiesen und die Original Textbausteine noch deutlich zu erkennen waren. Mit der neuen ChatGPT-4o-Version hat sich dieser Punkt jedoch klar verbessert, sodass eine praktische Nutzung möglich ist.
Noch besser funktioniert diese Prompt-Technik nach meinen Tests mit Google Gemini (Gemini Advanced mit dem 1.5 Pro Modell). Die auf diese Weise generierten (deutschen) Texte wirken für mich individueller und im Lesefluss angenehmer. Ein zusätzlicher Vorteil von Google Gemini gegenüber ChatGPT besteht in der Möglichkeit, sich zu einem Prompt drei Vorschläge generieren zu lassen. Dadurch kann für den Haupttext eine schnelle Auswahl aus drei verschiedenen Texten getroffen werden.
Alt-Tag und Bildtitel
Ich habe ChatGPT im Schritt zur Bildgenerierung oder im darauffolgenden Prompt einen Bildtitel und passenden Alt-Tag ausgeben lassen. Zusätzlich mit dem Hinweis, den Alt-Tag auf Keywörter oder das Thema des Blogbeitrags zu optimieren.
Rechtliche Bedenken
Die Bilder von Dall-E3 und Adobe Firefly können kommerziell verwendet werden, solange sie nicht gegen das Markenrecht verstoßen. Man sollte aber rechtliche Unsicherheiten bei der Nutzung von KI-Bildern einkalkulieren.
ChatGPTs Vision ist sehr gut darin, Komposition und Bildinhalt an Dall-E3 zu übergeben. Bei einfacheren Kompositionen kann es durchaus vorkommen, dass das generierte Bild nahe an der Originalvorlage landet. Wie nahe zu nahe ist und ob es bei dem Bildinhalt der Vorlage überhaupt eine Rolle spielt, kann ich nicht beurteilen. Ich empfehle zur ungefähren Einordnung den Beitrag „Rechtliches zum Nachfotografieren von Bildern“ von FotoTV.
Im nachfolgenden ein Beispiel, wo das zuerst erstellte KI-Bild sichtbar an der Bildvorlage ist (Kleidung, ungefähre Komposition), und ich das Bild mit editierten Prompts neu generieren ließ.
Ich empfehle zudem, jedes KI-Bild mit einem Rechtsklick auf „Bild an Google senden” zu überprüfen. Sollte als erste Vorschläge für ähnliche Bilder die genutze Bildvorlage erscheinen, rate ich davon ab, das Bild zu nutzen. Alternativ, das entsprechende Bild (mit einem modifizierten Prompt) neu generieren zu lassen.
Fazit
Die KI-Bildgenerierung mit Dall-E3 und mit Abstrichen Adobe Firefly hat sich als praktikabel erwiesen, um schnell Blogbeiträge mit ansprechenden und einzigartigen Bildern zu erstellen. Es ist durch die (relative) Einzigartigkeit der KI-Bilder zur SEO-Optimierung besser geeignet, als auf bereits unzählig verteilte Bilder aus Gratis-Plattformen wie Pixabay oder Pexels zurückzugreifen. Auch mit dem Argument, dass die Nutzung dieser Plattformen zusätzliche rechtliche Risiken mit sich bringt.
Da viele Blogbetreiber bereits ein Abonnement für ChatGPT Plus oder die Adobe Cloud besitzen (welches für die Bildgenerierung mit Dall-E3 bzw. Adobe Firefly erforderlich ist), stellt der Weg, KI-Bilder auf diese Weise zu erstellen, eine empfehlenswerte und insbesondere kostengünstige Lösung dar.