Wer schon mal bei einem Fotoshooting gestanden und überlegt hat, wie das Motiv stehen soll – der kennt das Problem. Posing ist Handwerk. Es gibt Konventionen, Regeln und Ausnahmen davon, und das alles je nach Körpertyp, Licht, Hintergrund und Intention des Bildes.
Ich habe in den vergangenen Monaten eine Datenbank mit 3.217 Posen aufgebaut. 51 Kategorien: Portrait, Gruppe, Produkt, Fashion, Editorial. Jede Karte beschreibt eine Pose mit Kontext – für wen sie sich eignet, worauf man achten muss, was häufig schiefgeht.
Der ursprüngliche Plan: Vollautomatisierung. KI generiert die Texte, eine synthetische Stimme spricht sie ein, FFmpeg baut die Videos, alles geht automatisch raus. 3.217 × 2 Sprachen = 6.434 Clips ohne manuelle Arbeit.
Was wirklich passiert ist
Der Plan hat nicht funktioniert. Nicht weil die Technik versagt hätte – die Pipeline stand. Das Problem war das Ergebnis: Es klang falsch.
Eine synthetische Stimme, die eine Posing-Anleitung vorliest, klingt genau wie das. Vorgelesen. Ohne die Nuancen, ohne die kleinen Pausen, die signalisieren dass jemand tatsächlich versteht, wovon er spricht. Wer einem Fotografen erklärt, wie er ein Motiv aufstellt, muss Autorität ausstrahlen. Das ist keine Technikfrage. Das ist eine Glaubwürdigkeitsfrage.
Meine Empfehlung: Bevor man eine Produktionskette automatisiert, sollte man ein ehrliches Qualitätsurteil über das Ergebnis treffen. Nicht ob es technisch funktioniert – sondern ob es gut genug ist, um damit verbunden zu sein.
Was die KI trotzdem geleistet hat
Die KI hat den Löwenanteil der Vorarbeit erledigt – und das war echter Aufwand.
3.217 Posen zu sichten, kategorisieren, strukturieren, mit Beschreibungen und Metadaten versehen: das ist Stunden an Arbeit, die ohne KI-Unterstützung Wochen gedauert hätte. Die Modelle haben Posen nach Körperhaltung klassifiziert, gegenläufige Varianten identifiziert, Kategoriegrenzen geprüft. Das Rohmaterial war danach so aufbereitet, dass ich direkt mit der Produktion hätte anfangen können.
Das ist der Punkt, an dem KI tatsächlich nützt: bei der Strukturierung von großen Datenmengen, bei der Kategorisierung, bei repetitiven Aufgaben, bei denen das Muster klar ist und das Ergebnis überprüfbar bleibt.
Der neue Plan
Ich spreche die Videos selbst ein. Weil es um meine Expertise geht. Die Datenbank ist aufgebaut, die Karten sind fertig. Jetzt kommt die Produktion – mit meiner Stimme, meinem Timing, meiner Art zu erklären.
Nach der Aufnahme kommt die KI wieder: automatisches Schneiden, Abspann, Plattform-Verteilung, Zeitplanung. Die Teile des Workflows, bei denen es keine Rolle spielt, ob ein Mensch oder eine Maschine die Arbeit erledigt.
Das Modell ist nicht KI statt Mensch. Das Modell ist KI für die Teile, bei denen sie besser ist – und Mensch für die Teile, bei denen es darauf ankommt.
Liebe Grüße, Sascha Manke