Przełom w Gemini. Sztuczna inteligencja od Google wkrótce przeanalizuje Twoje wideo

Odkryto sekretną funkcję Gemini

Obecnie interakcje ze sztuczną inteligencją Google’a przebiegają w różny sposób. Możemy klasycznie napisać zapytanie lub podać je głosowo. Gemini może również analizować przesłane przez nas pliki. Wcześniej to użytkownicy wersji płatnej mieli tu najlepiej, jednak od jakiegoś czasu gigant rozszerzył obsługę różnego rodzaju plików także na darmową wersję, więc teraz AI może dla nas analizować obrazy, pliki tekstowe oraz pliki przesłane z Dysku. Jakiś czas temu pojawiły się również doniesienia, że do tych opcji dojdą też pliki wideo – wzmiankę na ten temat odkryto w kodzie aplikacji.

Czytaj też: Claude 3.7 odbiera użytkowników ChatGPT. Jak nowy model Anthropic zmienia układ sił na rynku

Teraz natomiast redakcji Android Authority udało się nieoficjalnie uruchomić tę przełomową funkcję w najnowszej wersji beta aplikacji Gemini dla Androida (16.15.38.sa.arm64). Dzięki temu uzyskaliśmy unikalny wgląd w to, jak wkrótce będziemy mogli wchodzić w interakcję z AI za pomocą filmów. Podczas testów, Gemini zaskakująco dobrze poradził sobie z analizą trzech różnych klipów wideo. W jednym przypadku, na podstawie samej architektury budynków i innych wskazówek geograficznych, trafnie określił lokalizację nagrania. Równie precyzyjnie przebiegła analiza dwóch pozostałych materiałów.

Czytaj też: Koniec monopolu Gemini? Ten wschodzący asystent AI może wkroczyć na smartfony Samsunga

Udało się też odkryć kilka kluczowych szczegółów dotyczących działania przygotowywanego ulepszenia. Przede wszystkim, do przesyłanego wideo będzie można dołączyć pisemne zapytanie, co pozwoli na bardziej ukierunkowaną analizę. Ponadto, ustalono limit trwania przesyłanych materiałów wideo do pięciu minut – zarówno pojedynczych klipów, jak i ich sumy. Próba przesłania dłuższego filmu skutkuje wyświetleniem stosownego ostrzeżenia.

Wprowadzenie możliwości analizy wideo stanowi kolejny, znaczący krok w realizacji wizji Google’a dotyczącej stworzenia wszechstronnej, multimodalnej sztucznej inteligencji. Gemini ma ambicję wykraczać poza tradycyjne interakcje tekstowe i głosowe, integrując zdolność rozumienia i przetwarzania różnorodnych formatów danych – obrazów, a wkrótce także wideo i audio. Potencjał tej nadchodzącej funkcji jest ogromny – użytkownicy będą mogli generować w ten sposób automatyczne streszczanie nagrań z wideokonferencji, uzyskiwanie wizualnej pomocy technicznej na podstawie nagrania ekranu, czy nawet inteligentne analizowanie treści filmów w celach edukacyjnych lub rozrywkowych.

Czytaj też: Gemini może wkrótce zastąpić Asystenta Google w Twoim samochodzie

Można się również spodziewać, że analizowanie wideo pozostanie zarezerwowane dla płatnej wersji Gemini, przynajmniej przez jakiś czas. Google do tej pory stosował właśnie taką praktykę, że wszelkie nowe funkcje wprowadzał najpierw dla tych, którzy płacą za bardziej zaawansowaną sztuczną inteligencję, jednak z czasem dodawał je też do darmowej wersji. Świetnym przykładem jest model Gemini 2.5 Pro czy też niedawne ulepszenia Gemini Live, pozwalające konwersacyjnemu modelowi AI na udostępnianie ekranu i transmisje wideo na żywo. Zapewne więc podobnie będzie z analizą wideo, choć to jedynie moje przypuszczenia, na potwierdzenie których trzeba będzie trochę poczekać.