Google Whisk to eksperyment, ale z perspektywami
Idea jest bardzo prosta – zamiast samodzielnie konstruować długie opisowe prompty, możemy wczytać jako wejście obraz, który silniki Gemini i Imagen 3 analizują i przetwarzają w tekst go opisujący. A właściwie nie w jeden obraz, tylko w trzy – jeden opisujący temat główny, drugi opisujący scenę, a trzeci styl. Wynikowe prompty można modyfikować we własnym zakresie albo dodawać dodatkowe informacje zarówno do każdego obrazka z osobna, jak i do miksowanego obrazu wynikowego.
Czytaj też: Microsoft nie wie, co zrobić z klawiszem Copilot
Serwis jest w wersji alfa (w końcu to laboratorium Google’a), a dostępność ograniczona jest do użytkowników z USA.To jednak nie przeszkodziło mi w szybkim sprawdzeniu, co i jak – w końcu, od czego jest VPN? Wrażenia są bardzo pozytywne – z tekstowego opisu postaci można stworzyć obraz wynikowy, który całkiem przypomina oryginał. Jednocześnie nic nie stoi na przeszkodzie, by z opisu stworzyć pluszaka, naklejkę albo jeszcze coś innego. Na powyższych przykładach widać właśnie efekty przetwarzania w pluszaka, z dodatkowym wyborem sceny (na początku bez niczego, później scenę stanowił kadr z Diuny, a w trzecim przykładzie nadmorski zachód słońca).
Jednocześnie Google podkreśla, że opisy są stworzone na podstawie kluczowych cech, więc mogą się pojawiać także daleko idące różnice dotyczące cech postaci czy scen. I tu wchodzi właśnie możliwość dodawania dodatkowych opisów, kierujących silnik miksujący w pożądanym kierunku, zmieniając np. wiek, ubiór, fryzurę czy inne cechy postaci będącej tematem, albo w ogóle modyfikując styl obrazu.
Mimo ograniczenia terytorialnego i eksperymentalnego statusu serwisu ten wydaje się działać całkiem dobrze, a do tego bez problemu komunikuje się z użytkownikiem w języku polskim. Wydaje się zatem, że jeśli na przeszkodzie nie staną kwestie unijnych ograniczeń dotyczących AI, zobaczymy wkrótce Whisk także u nas. A na razie chętni do eksperymentów muszą użyć VPN.