Gemini Nano – do czego przyda się lokalny asystent AI dla telefonów z Androidem i na których smartfonach zadziała

Jesteśmy przyzwyczajeni do rozwiązań AI pokroju ChatGPT wymagających do pracy stałego połączenia z internetem, ale prawdziwą zmianę niosą ze sobą duże modele językowe, które działają w pełni lokalnie, w oparciu o moc obliczeniową danego urządzenia. Do tego grona należy m.in. Gemini Nano, LLM od Google przeznaczony dla smartfonów z Androidem (raczej dla półki premium). Do czego może faktycznie przydać się taki lokalny model AI i na których telefonach z Androidem będzie dało się z niego skorzystać?
Gemini
Gemini

Wydaje się, że Google nie może dłużej trzymać modelu Gemini Nano wyłącznie w domenie telefonów z serii Pixel. Wraz z lawinowym wzrostem popularności rozwiązań pokroju ChatGPT na urządzeniach mobilnych stało się jasne, że nikt z dużych graczy na rynku smartfonów nie zamierza zasypiać w tym temacie gruszek w popiele. Niech za przykład posłuży chociażby Apple Intelligence, czyli autorska technologia rozwijana przez koncern z Cupertino. Oczywiście w wyścigu o prymat w świecie mobilnego AI przewagą Google nad innymi producentami jest ekosystem Androida, którego Gemini Nano ma być nieodzownym składnikiem.

Czym jest Gemini Nano?

Gemini Nano to najmniejszy z LLM-ów, zaprojektowany do korzystania z mocy obliczeniowej danego urządzenia (w domyśle smartfonu). Najlepiej sprawdzi się do zadań związanych z przetwarzaniem tekstu (np. sugerowaniem odpowiedzi na wiadomość w komunikatorze albo redagowaniem wiadomości w poczcie). To jednak nie koniec, bo ostatnie wcielenie Gemini Nano to model multimodalny, zatem nie tylko do zastosowań tekstowych – będzie w stanie zająć się również plikami audio oraz zdjęciami. Nie spodziewajcie się jednak, że dorówna możliwościami większemu Gemini, nie wspominając o ChatGPT.

Takie rozwiązanie ma jednak niezaprzeczalną zaletę – działa bez połączenia z internetem, a zatem żadne dane nie wychodzą na zewnątrz do serwerów Google, co dla niektórych użytkowników ma ogromne znaczenie. Zyskujemy nie tylko na prywatności, ale również na czasie reakcji na zapytanie. Żeby nie było tak różowo, klasyczne coś za coś – takie możliwości wymagają zasobów. Smartfony z serii Pixel 9 nie bez powodu mają na pokładzie solidne 16 GB pamięci RAM. Solidnej części będzie potrzebować do pracy właśnie Gemini Nano. To jeszcze nie wszystko, bo potrzebujemy też rdzeni NPU (neural processing unit). Te mają współczesne topowe procesory mobilne, takie jak Tensor G4 czy Snapdragon 8 Gen 3.

Takie funkcje może mieć Gemini Nano

Nieprzypadkowo napisałem “może”, bo dużo będzie zależeć od specyfikacji technicznej smartfonu, na którym zostanie uruchomiony. Pakiet dostępnych narzędzi jest dość płynny i stale aktualizowany, ale z grubsza będzie można liczyć na poniższe funkcje:

  • podsumowania tekstowe nagrań audio (do 30 minut dla telefonów Pixel 9)
  • inteligentne odpowiedzi dla klawiatury Gboard (WhatsApp, Line, KakaoTalk, obecnie tylko po angielsku)
  • generowanie odpowiedzi w Wiadomościach Google z użyciem określonego stylu odpowiedzi
  • wyciąganie danych ze zrzutów ekranu 
  • talkback (opisy obrazków dla osób niewidomych lub z wadami wzroku)
  • raporty pogodowe AI
  • notatki z rozmów telefonicznych (aktywowane ręcznie)

Czytaj też: Sztuczna inteligencja Gemini może wkrótce zagościć w Twoim samochodzie

Pozostało nam tylko określić modele smartfonów, na których z Gemini Nano będzie można korzystać. Oprócz serii Google Pixel 9 (włącznie z Pixel 9 Pro Fold), lokalny LLM od Google trafi również na wcześniejszą serię Google Pixel 8, a także do telefonów Samsung Galaxy S24 i S24 FE, Samsung Galaxy Z Flip 6 i Fold 6, Xiaomi 14T, Xiaomi MIX Flip, Motorola Edge 50 Ultra oraz Motorola Razr 50 Ultra.