Lernwiesel.de - KI-generierte Blogbilder

Banner für den Blogbeitrag KI-generierte Blogbilder: Ein KI-generiertes Bild zeigt die farbenfrohe Illustration eines lächelnden Mädchens mit braunen Haaren und einer großen, runden Brille. Um sie herum sind zahlreiche Symbole und Werkzeuge aus den STEM-Fächern (Science, Technology, Engineering, Mathematics) dargestellt, darunter Atome, Mikroskope, Erlenmeyerkolben, Zahnräder, Raketen und Diagramme. Die Grafik vermittelt die Begeisterung und Neugierde für naturwissenschaftliche und technische Disziplinen.

Mit dem Release des OpenAI Bildgenerators Dall-E 3 habe ich mit Lernwiesel einen Blog mit ca. 30 Beiträgen zu Lernthemen erstellt. Ziel war es, in möglichst kurzer Zeit einen kompletten Blog zu erstellen und dabei nur thematisch passende, KI-generierte Bilder zu verwenden. Alle Bilder auf Lernwiesel.de sind KI-generiert.

Inhaltsverzeichnis

ChatGPT Vision und Dall E-3 Prompts

Der Bildgenerator Dall-E in der Version 3 hat ein sehr gutes Prompt Understanding, d.h. das Modell kann auch komplexe Prompts in eine passende Bildkomposition umsetzen. Zum anderen können in Kombination mit der Vision-Fähigkeit von ChatGPT Bilder hochgeladen und deren Inhalte detailliert beschrieben werden, die dann wieder als Prompt zur Bildgenerierung verwendet werden können. Dies sollte theoretisch den Aufwand für die Bildgenerierung deutlich reduzieren und auch schwierige Kompositionen ohne größeren Aufwand ermöglichen.

Hintergrund

Alternative Bildgeneratoren wie Stable Diffusion, Midjourney oder Adobe Firefly haben aktuell nur ein eingeschränktes Promptverständnis, bei dem mit Halbsätzen das grobe Thema angerissen und mit einer Häufung bestimmter Keywords Stile oder Details hervorgehoben werden können. Die gezielte Umsetzung von bestimmten Kompositionen, Handlungen oder grafischen Elementen im Bild ist so ohne zusätzliche Bearbeitung kaum möglich.

EIn Screenshot der Lernwiesel.de Screenshot Homepage — Lernwiesel.de Homepage

Ein Screenshot der Lernwiesel.de Kategorieübersicht — Lernwiesel.de Kategorieübersicht

Die Praktische Umsetzung

Im ersten Schritt habe ich auf verschiedenen Bildportalen nach passenden Stockbildern zu den Beiträgen gesucht. Diese wurden dann in ChatGPT hochgeladen, zuerst mit dem Prompt den Bildinhalt zu beschreiben, um dann im nächsten Prompt mit dieser Bildbeschreibung ein neues Bild zu erstellen. Alternativ kann die Bildvorlage auch sofort in Kombination mit dem Prompt, ein Bild mit dem gleichen Inhalt zu erstellen, hochgeladen werden. Wer Zeit sparen will, kann es so direkt machen, die Ergebnisse sind zumeist passend.

Verliert Dall-E3 jedoch für die Bildaussage wichtige Inhalte der Bildvorlage, oder man möchte eine spezifische Komposition erhalten, führt ein vorheriger Prompt zur Bildbeschreibung oft noch zum Erfolg.

EIn KI-Bild mit detaillierter Komposition. Eine Mutter sitzt mit ihrer jungen Tochter in einem sonnigen Wohnzimmer auf dem Boden und hält zwei Zeichnungen mit einem lachenden und einem traurigen Gesicht hoch. Die Mutter und das Kind interagieren spielerisch. — Dall-E3 Prompt: “A watercolor painting of a playful and educational scene in a bright room. A young woman with glasses is sitting on the floor, holding two drawings – one with a happy face and the other with a sad face. She is smiling and interacting with a young girl who is touching the happy face drawing. The room is filled with toys and scattered colorful pieces, with large windows letting in plenty of natural light. The background includes a brick wall, adding a cozy touch to the environment.”

Gegebenenfalls sollte der Prompt an einigen Stellen noch einmal angepasst werden, um die eigene Bildidee weiter zu verwirklichen oder um ggf. rechtliche Unsicherheiten zu vermeiden. (Siehe Abschnitt “Rechtliche Bedenken”)

Der grafische Stil

Für fast alle Bilder habe ich einen künstlerischen Stil gewählt, z.B. die Generierung als Aquarell. Einerseits ist Dall E-3 nicht in der Lage, realistische Bilder zu erzeugen (oder wird entsprechend zensiert), andererseits vertuschen diese Stile typische KI-Fehler, z.B. bei komplexeren Details oder Personen.

Ein Beispiel für ein KI-Blogbild mit generiertem Text im Bild. Eine Gruppe von Kindern sitzt in einem Klassenzimmer und lernt Programmieren. Eine Lehrerin steht in der Mitte und erklärt etwas, während die Kinder aufmerksam zuhören und lächeln. Auf dem Tisch befinden sich Laptops, Kabel und elektronische Bauteile. Im Hintergrund hängen bunte Girlanden und Plakate mit der Aufschrift "Coding Kids". Die Szene zeigt eine fröhliche und produktive Lernumgebung. — Dall-E3 generierte Textelemente

Die Generierung von Schriften und Textelementen ist mit Dall-E3 möglich, das Ergebnis ist in einigen Fällen korrekt und oft nahe dran. Die Konkurrenz beherrscht dies derzeit kaum, mit dem Release von Stable Diffusion 3 Medium wurde hier kürzlich im Open Source Bereich eine fähige Möglichkeit geschaffen. Der Einsatz dieses Modells ist allerdings aus vielen anderen Gründen nicht zu empfehlen.

Der Einsatz von Adobe Firefly

Mit Adobe Firefly (Modell Firefly Image 3) habe ich nur einige “oberflächliche Beiträge” illustriert, d.h. Themen, bei denen es von Natur aus viele Bildmöglichkeiten gibt und die dargestellten Aktionen nicht sonderlich komplex sind oder grafische Elemente enthalten.

Als Beispiel dazu die Beiträge Ostern im Kindergarten und Fasching im Kindergarten.

Ein mit Adobe Firfly erstelltes KI-Blogbild. Ein Kleinkind in einem blauen T-Shirt spielt mit bunten Bauklötzen auf dem Boden. Die Hände des Kindes stapeln sorgfältig die farbenfrohen Blöcke zu einem Turm. Im Hintergrund sind weitere Spielzeuge und Pflanzen zu sehen, die eine fröhliche und lebendige Atmosphäre schaffen. — Einfache Handlungsabläufe oder Themen sind auch mit Adobe Firefly möglich

Um einen ansprechenden Stil zu erhalten, waren auch einige Tests mit eigenen Bildreferenzen als Stilvorlage notwendig. Außerdem ist eine wesentlich größere Anzahl von Bildgenerierungen als bei Dall E-3 erforderlich, um ein gutes Ergebnis zu erzielen.

Die Prompts für Adobe Firefly habe ich mir über ChatGPT ausgeben lassen, mit dem Hinweis, die Bildbeschreibung als kurzen, präzisen Prompt für die Bildgenerierung auszugeben.

Leseempfehlung Waldposter.de - KI-generierte Poster

Die Textgenerierung

One-Shot Blogbeiträge

Da der Fokus nicht auf den Texten lag, habe ich hier zwecks Schnelligkeit sogenannte One-Shot-Prompts genutzt. Dabei wurde ein Beitragsthema grob zusammenkopiert und ein einziger Prompt mit dem Hinweis verwendet, den Text mit fehlenden Inhalten zu erweitern, neu zu strukturieren und komplett umzuschreiben. Dies führte bei meinen früheren Versuche mit ChatGPT-4 noch nicht zu den gewünschten Ergebnissen, da die Texte eine geringe Länge aufwiesen und die Original Textbausteine noch deutlich zu erkennen waren. Mit der neuen ChatGPT-4o-Version hat sich dieser Punkt jedoch klar verbessert, sodass eine praktische Nutzung möglich ist.

Noch besser funktioniert diese Prompt-Technik nach meinen Tests mit Google Gemini (Gemini Advanced mit dem 1.5 Pro Modell). Die auf diese Weise generierten (deutschen) Texte wirken für mich individueller und im Lesefluss angenehmer. Ein zusätzlicher Vorteil von Google Gemini gegenüber ChatGPT besteht in der Möglichkeit, sich zu einem Prompt drei Vorschläge generieren zu lassen. Dadurch kann für den Haupttext eine schnelle Auswahl aus drei verschiedenen Texten getroffen werden.

Ein Screenshot zeigt die Auswahl 3 verschiedener Textvorschläg in Google Gemini. — Auswahl 3 verschiedener Textvorschäge in Google Gemini

Alt-Tag und Bildtitel

Ich habe ChatGPT im Schritt zur Bildgenerierung oder im darauffolgenden Prompt einen Bildtitel und passenden Alt-Tag ausgeben lassen. Zusätzlich mit dem Hinweis, den Alt-Tag auf Keywörter oder das Thema des Blogbeitrags zu optimieren.

Rechtliche Bedenken

Die Bilder von Dall-E3 und Adobe Firefly können kommerziell verwendet werden, solange sie nicht gegen das Markenrecht verstoßen. Man sollte aber rechtliche Unsicherheiten bei der Nutzung von KI-Bildern einkalkulieren.

ChatGPTs Vision ist sehr gut darin, Komposition und Bildinhalt an Dall-E3 zu übergeben. Bei einfacheren Kompositionen kann es durchaus vorkommen, dass das generierte Bild nahe an der Originalvorlage landet. Wie nahe zu nahe ist und ob es bei dem Bildinhalt der Vorlage überhaupt eine Rolle spielt, kann ich nicht beurteilen. Ich empfehle zur ungefähren Einordnung den Beitrag “Rechtliches zum Nachfotografieren von Bildern” von FotoTV.

Im nachfolgenden ein Beispiel, wo das zuerst erstellte KI-Bild sichtbar an der Bildvorlage ist (Kleidung, ungefähre Komposition), und ich das Bild mit editierten Prompts neu generieren ließ.

EIn KI-Blogbild mit dem originalen Dall-E3 Prompt. Ein Erwachsener und ein Kind, die gemeinsam ein hölzernes Vogelhaus an einem Baum befestigen. Das Kind hält einen Hammer und der Erwachsene leitet an. Sie befinden sich in einem grünen Garten vor einem Ziegelhaus. — Original Dall E-3 Prompt

EIn KI-Blogbild mit dem editierten Dall-E3 Prompt. Ein Erwachsener und ein Kind, die gemeinsam ein hölzernes Vogelhaus an einem Baum befestigen. Das Kind und der Erwachsene halten jeweils einen Hammer und der Erwachsene leitet an. Sie befinden sich in einem grünen Garten vor einem Ziegelhaus. — Dall-E3 Prompt Edit

Ich empfehle zudem, jedes KI-Bild mit einem Rechtsklick auf „Bild an Google senden” zu überprüfen. Sollte als erste Vorschläge für ähnliche Bilder die genutze Bildvorlage erscheinen, rate ich davon ab, das Bild zu nutzen. Alternativ, das entsprechende Bild (mit einem modifizierten Prompt) neu generieren zu lassen.

Fazit

Die KI-Bildgenerierung mit Dall-E3 und mit Abstrichen Adobe Firefly hat sich als praktikabel erwiesen, um schnell Blogbeiträge mit ansprechenden und einzigartigen Bildern zu erstellen. Es ist durch die (relative) Einzigartigkeit der KI-Bilder zur SEO-Optimierung besser geeignet, als auf bereits unzählig verteilte Bilder aus Gratis-Plattformen wie Pixabay oder Pexels zurückzugreifen. Auch mit dem Argument, dass die Nutzung dieser Plattformen zusätzliche rechtliche Risiken mit sich bringt.

Da viele Blogbetreiber bereits ein Abonnement für ChatGPT Plus oder die Adobe Cloud besitzen (welches für die Bildgenerierung mit Dall-E3 bzw. Adobe Firefly erforderlich ist), stellt der Weg, KI-Bilder auf diese Weise zu erstellen, eine empfehlenswerte und insbesondere kostengünstige Lösung dar.

Lernwiesel.de – KI-generierte Blogbilder