Funkcję generowania obrazów OpenAI rozwijało przez ostatnie dwa lata. Rok po rozpoczęciu prac i wytrenowaniu modelu, zaobserwowano zdolności do renderowania całych akapitów tekstu i łączenia obrazów w nowatorski sposób. Wczesna wersja modelu, choć obiecująca, była jednak nadal dość ‘surowa’ – robiła literówki i bywała zawodna. Ostatni rok poświęcono na jej optymalizację. Model potrafi teraz poprawnie interpretować złożone instrukcje, uwzględniać perspektywę i umieszczać tekst w odpowiednich miejscach na obrazie. Użytkownicy mają teraz większą kontrolę nad procesem generowania obrazów, mogą dostarczać własne obrazy jako inspirację, określać style, palety kolorów itp.
Mało tego, dostosowywanie obrazów odbywa się również przez określanie proporcji, definiowanie kolorów (używając kodów heksadecymalnych) lub przezroczystego tła. Co nie będzie pewnie specjalnym zaskoczeniem, jednym z najpopularniejszych zastosowań wczesnej wersji modelu było tworzenie memów. Podkreślono, że wiele obrazów, z którymi mamy do czynienia na co dzień, to niekoniecznie estetyczne arcydzieła, ale treści tworzone z intencją perswazji, informowania lub edukowania.
Jak sami zobaczycie na powyższym wideo, rozwiązanie wymaga nieco cierpliwości, nie działa tak szybko jak inne narzędzia do generowania obrazów, ale efekt finalny jest chyba tego warty.
GPT-4o uwzględnia cały kontekst rozmowy, co sprawia, że jest bardziej użyteczny. Użytkownicy mogą prosić o edycje i poprawki w kolejnych turach konwersacji. Warto pamiętać, że wszystkie obrazy wygenerowane przy użyciu nowego modelu będą zawierać metadane C2PA, a wewnętrzne narzędzie OpenAI będzie mogło zweryfikować, czy dany obraz został wygenerowany przy użyciu tego modelu. Nowa funkcja jest wprowadzana dla użytkowników subskrypcji ChatGPT Plus, Pro, Team, ale także dla edycji darmowej (oczywiście z ograniczeniami). Wkrótce będzie dostępna także dla użytkowników Enterprise oraz Edu.
Czytaj też: Koreańska odpowiedź na ChatGPT zaskakuje możliwościami. EXAONE Deep pokazuje pazury
Niestety na obecnym etapie natywne generowanie obrazów z użyciem GPT-40 ma nieco ograniczeń. Model może czasami zbyt mocno przycinać dłuższe obrazy, takie jak plakaty. Obrazy mogą zawierać zmyślone informacje, szczególnie przy mało precyzyjnych podpowiedziach. Pojawiają się także trudności z dokładnym renderowaniem więcej niż 10-20 odrębnych konceptów jednocześnie. Problemy z renderowaniem sprawiają języki niełacińskie. Poza tym prośby o edycję konkretnych części obrazu nie zawsze są skuteczne i mogą wprowadzać nowe błędy. Dodatkowo model może mieć trudności z renderowaniem szczegółowych informacji w bardzo małym rozmiarze.