learnathome.schule

Wie KI-Bildgenerierung funktioniert#

KI-Bildgenerierung hat in den letzten Jahren einen enormen Sprung gemacht. Systeme wie DALL-E 3, Midjourney v6, Stable Diffusion XL und Adobe Firefly können aus Textbeschreibungen (Prompts) fotorealistische Bilder, Illustrationen und künstlerische Werke erstellen.

Die zugrunde liegende Technologie sind Diffusion Models (Diffusionsmodelle), die ein zufälliges Rauschbild schrittweise in ein kohärentes Bild transformieren, geleitet durch die Textbeschreibung. Der Prozess beginnt mit reinem Rauschen und entfernt in vielen iterativen Schritten das Rauschen, wobei das Modell gelernt hat, welche Pixelmuster zu welchen Textbeschreibungen passen.

DALL-E 3#

DALL-E 3 (OpenAI) ist direkt in ChatGPT integriert und erzeugt Bilder basierend auf natürlichsprachlichen Beschreibungen. Die Integration in ChatGPT ermöglicht einen konversationellen Workflow: Man beschreibt das gewünschte Bild, erhält ein Ergebnis und kann durch Folge-Prompts Anpassungen vornehmen (Stil ändern, Elemente hinzufügen oder entfernen, Farbpalette anpassen).

DALL-E 3 ist besonders stark bei der Darstellung von Text in Bildern und beim Befolgen komplexer Anweisungen. Midjourney ist über Discord zugänglich und erzeugt besonders ästhetische, künstlerische Bilder. Es hat sich als das Tool der Wahl für Kreative und Designer etabliert und überzeugt durch herausragende Bildqualität und künstlerischen Stil.

Stable Diffusion#

Stable Diffusion ist das wichtigste Open-Source-Bildgenerierungsmodell und kann lokal auf dem eigenen Computer ausgeführt werden. SDXL (Stable Diffusion XL) und die neueren SD3-Modelle bieten professionelle Bildqualität. Der Vorteil lokaler Ausführung: vollständige Kontrolle über die Daten, keine Kosten pro Bild und die Möglichkeit, das Modell für spezifische Anwendungsfälle feinzutunen.

ComfyUI und Automatic1111 sind beliebte Benutzeroberflächen für Stable Diffusion. Adobe Firefly ist in die Creative Cloud integriert und positioniert sich als kommerzielle, urheberrechtlich sichere Alternative, da es nur auf lizenzierten Bildern trainiert wurde, was für den professionellen kommerziellen Einsatz besonders wichtig ist.

Die Qualität der generierten#

Die Qualität der generierten Bilder hängt maßgeblich vom Prompt ab. Ein effektiver Bildprompt beschreibt: das Hauptmotiv (was soll dargestellt werden?), den Stil (Fotografie, Illustration, Ölgemälde, Aquarell), die Perspektive (Vogelperspektive, Nahaufnahme, Weitwinkel), die Beleuchtung (weiches Licht, dramatische Schatten, goldene Stunde), die Farbpalette und die Stimmung (professionell, verspielt, dramatisch).

Negative Prompts in Stable Diffusion und Midjourney definieren, was NICHT im Bild erscheinen soll. Die Beherrschung von Bildprompts ist eine eigene Fertigkeit, die durch Übung und das Studium erfolgreicher Prompts in Communities wie Civitai und Prompthero entwickelt werden kann.

Bildgenerierung: Midjourney, DALL-E, Stable Diffusion

Lernmaterial

Wie KI-Bildgenerierung funktioniert

Wie KI-Bildgenerierung funktioniert#

DALL-E 3#

Stable Diffusion#

Die Qualität der generierten#

Karteikarten

Quiz

Mehr lernen?