Gemini, Gemini, Gemini – Google idzie drogą Apple’a

Tegoroczna konferencja Google za nami, rodzina Google Pixel 9 przestała być „tajemnicą”. O sprzęcie jednak nie będę tu pisał – zrobił to już Arek w innym tekście. Skupię się teraz na oprogramowaniu, a raczej na niejakich podobieństwach konferencji do czerwcowego Keynote Apple’a
Gemini
Gemini

Gdzie nie zajrzeć, sztuczna inteligencja

Apple zaplanował sobie Apple Intelligence jako centralną funkcję spinającą wszystkie usługi i systemy. By zobaczyć, jak dalece udaną, przyjdzie poczekać do wrześniowej premiery nowych urządzeń. Co prawda we wrześniu raczej użytkownicy nie otrzymają działającej Apple AI, która wejdzie razem z kolejnymi aktualizacjami. Jakkolwiek by patrzeć, Google postanowił zrobić mniej więcej to samo, tylko bardziej nachalnie i sztuczna inteligencja Google, zwana Gemini, była odmieniana przez wszystkie możliwe przypadki.

Zacznijmy od tego, że fundamentem Androida będzie Gemini Nano, multimodalny model językowy, działający wyłącznie na urządzeniu, akcelerowany przez NPU z układu Tensor G4. Żadne dane nie będą musiały być przesyłane do chmury Google – a jednocześnie asystent Gemini będzie dzięki temu w stanie w bezpieczny sposób i na polecenie operatora korzystać ze zgromadzonych na urządzeniu danych (takich jak poczta, wpisy w kalendarzu ito) w celu udzielenia odpowiedzi i wykonywania rozkazów.

Gemini Nano to fundament i podstawa. Nie zapewnia jednak bardziej zaawansowanych funkcji, które wykonywane są w innych warstwach. Gemini Live to model komunikujący się głosowo z użytkownikiem w czasie rzeczywistym, przy pomocy języka naturalnego i w sposób w pełni interaktywny – przypomina przy tym opisywany przeze mnie w maju model Chat GPT-4o, ale podobnych modeli jest opracowywanych więcej. Rzecz w tym, że Gemini Live ma być dostępne właściwie już, a jego możliwości wyglądały całkiem obiecująco mimo tego, że entuzjazm widowni Google Keynote musiał być czasem nieco pobudzany.

Najbardziej zaawansowaną częścią jest Gemini Advanced, najbardziej rozbudowana i najpotężniejsza część Gemini. Haczyk tkwi w tym, że będzie płatna, a patrząc po obecnych cenach – tanio nie będzie. Co prawda nabywcy Pixeli 9 na rok otrzymają gratis dostęp na rok razem z paroma terabajtami miejsca w chmurze. Czy Google znajdzie chętnych na kolejny abonament? Nie jestem przekonany, aczkolwiek oczywiście to zależy od tego, w jakim stopniu płatne funkcje rzeczywiście będą game changerami. Nie wątpię też, że na odpowiedź niecierpliwie czeka także Apple i inni – w końcu nie tylko Google chciałby skubnąć trochę dodatkowego grosza od klientów.

Zobacz także: Debiutuje seria Google Pixel 9 – obudowa jak w iPhonie i dużo sztucznej inteligencji (chip.pl)

Konkrety, czyli co dostaniemy z Pixelami

Smartfony Google nigdy nie zachwycały najnowszymi rozwiązaniami sprzętowymi, jeśli chodzi o aparaty fotograficzne. Ich pipeline do przetwarzania zdjęć jest jednak jednym z lepszych dostępnych, a dzięki nowościom w AI ulegnie kolejnemu wzmocnieniu – zdjęcia mają być jeszcze lepszej jakości, oferować niespotykaną do tej pory jakość HDR i sprawność w warunkach kiepskiego oświetlenia – także podczas rejestracji wideo.

Jednocześnie Google śmiało wybiera się tam, gdzie do tej pory nie było zbyt wielu odważnych – niektóre nowe funkcje aparatu i edytora Magic Editor przesuwają granice ingerencji w bardzo niebezpiecznym kierunku. Dzięki AddMe można dodać się do zrobionego wcześniej zdjęcia, wykonując drugie – AI zeszyje obie ekspozycje w jedno zdjęcie.

AI pomoże także przy zdjęciach zbiorowych, upewniając się, że każda z osób będzie złapana w najlepszym dla siebie momencie. A może masz niezbyt udany kadr? Gemini zbada go, przekadruje w optymalny sposób, generując brakującą w kadrze zawartość dzięki generatywnej AI. Jeśli i tego mało, to dzięki AI zmienimy na podstawie tekstowego promptu elementy sceny, albo dzięki funkcji ReImagine, całkowicie narysujemy je na nowo tórą w razie czego można zmienić też inne elementy, dodając elemetny do otoczenia albo całkowicie zmieniając otoczenie choćby kwiaty do łąki.

Oczywiście to, co dostaniemy „na wyjściu” nie będzie już fotografią. Zamiast tego w galerii znajdzie się elegancka i docukrzona grafika zdjęciopodobna, która pewnie zadowoli fotografującego bardziej, niż prawdziwie zdjęcie. Nowe funkcje generatywne nie są zresztą niczym nowym, takie narzędzia istnieją od dłuższej chwili – Google tylko po raz kolejny obniża próg ich użycia. Powinniśmy się zacząć przyzwyczajać, że nad każdym zdjęciem trzeba się zastanawiać, czy jest prawdziwe.

Google zabrał się też za poprawę trochę zapomnianego trybu panoramy, przede wszystkim wykorzystując całą potęgę przetwarzania obrazu, która w końcu dzięki znakomitemu NighSight pozwoli na wykonywanie wysokiej jakości złożeń także w nocy.

Co poza tym? Spodobało mi się analiza screenshotów, pozwalająca na tekstowe przeszukiwanie ich zawartości, robienie zestawień, czy tworzenie list – asystent Gemini zrobi na tej podstawie na przykład listę zakupów, podając przy okazji cenę i miejsce, gdzie można dokonać zakupu.

Siła Gemini wyjdzie w testach praktycznych, a plany Google są bardzo ambitne

Celem Gemini będzie zmiana sposobu, w jaki używamy smartfonu. Czy spotka się z uznaniem użytkowników – zobaczymy. Używam Gemini od jakiegoś czasu, w mniej zaawansowanej wersji, która zastępuje Asystenta Google i choć nijak mu do możliwości zaprezentowanych dzisiaj, to komunikuje się po polsku i działa lepiej, niż Asystent. Plan Google może się zatem powieść, szczególnie jeśli dowiezie to wszystko bez ograniczeń użytkownikom nieanglojęzycznym.

W planach są kolejne funkcje niezwiązane z Pixelami. Google Research ma pomóc w przygotowywaniu prac naukowych, zbierając i wstępnie przetwarzając zebrane dane – i szczerze mówiąc, miałbym problem z użyciem takich danych bez własnoręcznej ich weryfikacji, nie raz bowiem AI sobie już roiła różne rzeczy. Obawiam się jednak, że AI będzie prowokować do wybierania drogi na skróty, a to niepokoi. Pamiętacie przecież polecany przez Gemini sposób, na zrobienie pizzy, z której nie ześlizguje się ser, przy pomocy kleju?

Ja też pamiętam.