Die Schlafzimmertiere wurden lokal mit dem Stable Diffusion Modell RealVisXL und über das Automatic1111 Webinterface generiert. Als Auflösung habe ich im Seitenverhältnis das Breitbildformat CinemaScope (21:9) angelegt. Herausforderung hier war, dass die Generierung von KI-Bildern in diesen besonderen, nicht nativen Formaten oft problematisch ist.
Hintergrund
Die Generatoren sind primär auf Daten trainiert, die quadratische Bildformate verwenden, was die Anpassungsfähigkeit der Modelle an breitere oder nicht-quadratische Bildformate begrenzt. Diese Einschränkung kann zu verschiedenen Artefakten in den generierten Bildern führen, etwa doppelten Bildelementen oder inkonsistenter Bildkomposition. Das Modell hat dann Probleme, den erweiterten horizontalen oder vertikalen Raum zu interpretieren und zu füllen, da es auf solche Formate während des Trainings nicht ausreichend vorbereitet wurde.
Kommerzielle Bildgeneratoren verhindern diese Ausgabeformate in der Regel, bzw. es ist noch zusätzlich das gängige 4:3 oder 3:2 Format möglich. Dazu gibt es nach der Generierung aber Möglichkeiten, das Bild in der Horizontalen oder Vertikalen zu erweitern (Outpainting).