KI Bildspuren
Habe vor einer Zeit etwas gelernt über KI-generierte Bildinhalte. Ich hatte immer ein gewisses Gefühl, was die Ästhetik dieser Dinge betrifft, und zugegeben: Ich manipuliere seit Ende der 90er digitale Bilder, da bekommt man ein gewisses Gespür, was mir auch viele moderne Filme trübt, deren Ästhetik sehr oft künstlich wirkt, weil es künstlich ist.
Ich habe mit diversen LLM-Bild-Werkzeugen herumgespielt und finde es ein interessantes Spielzeug, das offenbar im Content-Uhrwerk moderner Inhaltsschmieden, essenziell zu werden scheint. Produktbilder in Online-Shops, interessant und nicht wirklich anders, als Produktbilder von Apple, die seit Jahren computergenerierte Bilder sind.
Was mich überrascht, ist hier die Erklärung der Black-Level und die absolute Präzision der Farbwerte beim Rauschen. Ich persönlich fand, dass statische Bilder schon recht weit gekommen sind, und nun fällt es mir wie Schuppen von den Augen. Mit dem gleichen Ansatz haben wir damals Texturen kreiert.
Im Bewegtbild muss ich persönlich sagen, habe ich noch nichts gesehen, was mich wirklich täuscht. Der Schlüssel für meine Augen sind neben den Klassikern (Ohren, Hände) Verformungen, basierend auf echter Physik, die eben kein 2-Dimensionales-Modell mit Pixel-Mustern abbilden kann. Vieles scheint der Schwerkraft entkoppelt zu sein, anders zu funktionieren. Jahrzehnte der Videospiel-Konditionierung haben endlich mal was Gutes. Bewegtbild der KI, wirkt immer, wie meine alten Photoshop Arbeiten noch zu Flash-Zeiten, als ich einzelne Ebenen animiert habe, aber damit bekommt man keine „feste“ Struktur. Dies wirkt immer entkoppelt von physischen Regeln.
Der gleiche Ansatz lässt sich mit puren 2D-Upscale-Techniken vs. Techniken mit Motion-Vektoren vergleichen. Meines Wissens nach, ist es schwierig, diese Ebene LLM zu lehren. Aber was weiß ich schon. Ich finde es jedenfalls faszinierend, spannend und herausfordernd, hier weiterhin Fortschritt zu sehen, der immer neue kleine Makel produziert. So einfach, wird es dann doch noch nicht.
Hinzu kommt ein lustiges Problem der Trainingsdaten. Es ist zweifellos, dass in den letzten 10 Jahren mehr Fotos entstanden sind, als wahrscheinlich in den 50 Jahren davor und die Masse davon kreiert mit Telefonen. Diese wiederum retuschieren seit langer Zeit automatisch die Daten. Für den Moment einmal als Instagram-Ästhetik betitelt. Vielleicht hat sich die Masse daran gewöhnt, aber für mich persönlich wirkt diese Ästhetik immer künstlich. Es ist schwierig, basierend auf dieser künstlichen und von Grund auf retuschierten Grundlage, zu lernen, um die Realität abzubilden.
NPR’s Artikel zum Thema
Nach Veröffentlichung meines Eintrags, fand ich eine NPR-Version mit einem Fokus auf Videos, welche ich auch hier verlinken möchte. Gibt auch einen kleinen Test, zum Thema. Sehr nett und bitte mehr davon, idealerweise direkt in die Schulzimmer damit.
0 Kommentare
global $hemingway ?>