AI wykosi słabych grafików, przetrwają najlepsi. Midjourney 5.1 powoduje opad szczęki

O silnikach AI służących do generowania grafiki na podstawie słownego opisu piszemy regularnie. Nie bez przyczyny – kolejne edycje oferują coraz lepszą jakość na podstawie coraz bardziej enigmatycznego opisu. Kilka dni temu publicznie udostępniony został Midjourney w wersji 5.1, a jego udoskonalenia nakierowane zostały właśnie na jak największy fotorealizm.
AI wykosi słabych grafików, przetrwają najlepsi. Midjourney 5.1 powoduje opad szczęki

Midjourney 5.1 coraz bliżej fotorealizmu

Zmiany, które zostały wprowadzone w najnowszej odsłonie zmierzają do dokładniejszego, a właściwie bardziej literalnego „rozumienia” wprowadzanego tekstu. Z punktu widzenia amatora, który zaczął zabawę z Midjourney niecałe dwa tygodnie temu i tworzenia poprawnych „promptów” dopiero się uczy, zauważyłem, że podając minimalny zestaw parametrów wyniki są dużo lepsze i bliższe mojemu wyobrażeniu o obrazie niż w poprzedniej edycji, w której dla uzyskania podobnego efektu wymagane było doprecyzowywanie wsadu.

Potwierdza to także zestaw porównań dostępnych na Twitterze:

Bezpośredniość interpretacji może oczywiście skutkować zbytnią dosłownością i brakiem subtelności.

Mniej błędów, szybszy efekt

Wypróbowałem oczywiście pewną liczbę wsadów wymyślonych przez siebie – jako kompletny nowicjusz i amator zwykle musiałem wielokrotnie modyfikować wsady, by uzyskać zadowalający (choć czasem nieprzewidziany) efekt. Wersja 5.1 sporo mi ułatwiła, choć w niektórych przypadkach dopiero któraś wersja tekstu była zadowalająca.

Na początek zainspirowana serialem „1923” stara ranczerka z Montany. Wsad był bardzo prosty, nie umieściłem w nim odniesień do filmu i nie wymagał późniejszych modyfikacji. Z czterech propozycji spodobały mi się trzy.

Trochę więcej zachodu było z uzyskaniem wizerunku samego bota Midjourney AI, w stylu „Stworzenia Adamia” Michała Anioła. Po wielu próbach uzyskałem powyższą grafikę, która mi się bardzo podoba, choć ze stylem wzorcowym chyba jednak nie ma wiele wspólnego.

Dwie inne niezłe interpretacje stworzenia Midjourney także wyglądały nieźle, stylistycznie bliższe zamierzeniu, choć efekt końcowy chyba słabszy.

Tocząca się dyskusja zwolenników i przeciwników elektromobilności sprowokowała mnie do zapytania Midjourney o to, jak wygląda prawdziwy wyznawca samochodów elektrycznych.

Z czterech propozycji wybrałem dwie. Na pierwszej człowiek ma trzy ręce – zapewne po to, by sprawniej jeść obiady podczas ładowania auta. Druga interpretacja jest nieco bardziej zachowawcza.

Testując wcześniejsze wersje Midjourney, Bing Image Creator i Adobe Firefly próbowałem uzyskać obraz znanego miłośnikom Tolkiena Gandalfa Szarego, wędrującego w deszczu ze światłem na końcu laski. O ile poprzednio musiałem modyfikować wsad (problemy były głównie ze świecącą laską, która potrafiła wyglądać bardzo dziwnie), to tym razem udany strzał był od pierwszego razu.

Podobieństwo do twórczości Alana Lee jest widoczne, lecz nie nachalne – o ile wizerunek czarodzieja jest bardzo zbliżony, to już sceneria, zachowując styl całości, nie ma chyba odpowiednika.

Zostając w temacie fantastyki, następne dwie grafiki dotyczą Świata Dysku i są w stylu Josha Kirby’ego:

Stworzenie Bagażu wyszło bardzo interesująco. Nie mam jednak pojęcia jak w niewielu słowach opisać botowi Midjourney oryginalny Bagaż, czyli świadomą skrzynię z setką nóżek, nic zatem dziwnego, że nie znalazł się na grafice. Będę jednak próbował, propozycje mile widziane.

Pozostając w tematach kreacji, tak Midjourney wyobraża sobie Sir Terry’ego Pratchetta i stworzenie Świata Dysku. Próbowałem także przekonać AI do namalowania Śmierci Szczurów. Nie powiem, szczurów było tam sporo, styl też się zgadzał, ale żaden jednak nie wyglądał jak mówiący PI pierwowzór.

Na zakończenie coś dla fanów Harry’ego Pottera. Filmowa Ginny Weasley jest postacią lubianą, ale wygląda odmiennie od pierwowzoru literackiego. Dobrze się składa zatem, że portrety Ginny w dormitorium Gryfonów w wykonaniu sztucznej inteligencji są bardziej udane.

Zobacz też: Generator obrazów, który nie kradnie? Adobe Firefly beta – pierwsze wrażenia (chip.pl)

AI wykosi słabych grafików, przetrwają najlepsi

„Stworzenie” każdej z powyższych grafik zajęło mi dosłownie parę minut, a ich opisy liczyły zaledwie parę wyrazów. Mając czas, wprawę i dokładniej składając zapotrzebowanie można uzyskać efekty zapierające dech. Czy graficy i fotografowie mają czego się bać? Jak najbardziej, choć jeszcze nie dziś i może nawet nie jutro. Ci lepsi i bardziej twórczy zapewne przetrwają dłużej.