Google Gemini już teraz podgląda ekran w telefonie i otoczenie użytkownika, ale to kosztuje

Google od pewnego czasu bardzo intensywnie rozwija platformę Gemini, a wprowadzenie funkcji wideo na żywo i udostępniania ekranu w Gemini Live jest znaczącym krokiem w kierunku stworzenia bardziej inteligentnego i kontekstowo świadomego asystenta. Nowe funkcje zostały już wcześniej zaprezentowane jako część tzw. Project Astra, a pierwszy raz o udostępnianiu ekranu telefonu dowiedzieliśmy się jeszcze wcześniej, bo już podczas ubiegłorocznego spotkania deweloperów, czyli Google I/O w połowie 2024 roku. Do czego będzie można używać wskazanych nowości?

Funkcja udostępniania ekranu pozwala Gemini Live na analizowanie zawartości wyświetlanej na urządzeniu użytkownika w czasie rzeczywistym. Demonstracja tej funkcji przez użytkownika serwisu Reddit (Kien_PS) pokazała, jak Gemini Live potrafi opisywać elementy interfejsu. Zauważono, że podczas analizy ekranu, obraz może być chwilowo zamrożony, aby poddać go analizie. Z kolei funkcja wideo na żywo umożliwia Gemini ‘widzenie’ otoczenia poprzez kamerę smartfona i odpowiadanie na pytania dotyczące tego, co asystent AI widzi. Nowe funkcje są obecnie dostępne tylko dla subskrybentów Gemini Advanced, a więc w ramach płatnego planu Google One AI Premium.

Czytaj też: Gemini: multimodalność w praktyce – czy Google przegoni OpenAI?

Warto pamiętać, że Google Gemini ma zastąpić Asystenta Google, który zostanie wycofany z większości urządzeń mobilnych do końca 2025 roku. Jest coraz głębiej zintegrowany z różnymi usługami Google, takimi jak pakiet biurowy (zarówno w wersji prywatnej, jak i biznesowej) czy mapy. Gemini 2.0 otwiera się na tzw. multimodalność – obsługuje wiele formatów danych jednocześnie, w tym tekst, obrazy, wideo i dźwięk, co pozwala na bardziej złożoną analizę i generowanie treści. W tym kontekście szczerze polecam Wam szczegółową analizę Piotra Olszewskiego, którą znajdziecie pod powyższym linkiem.