Jeszcze więcej sztucznej inteligencji na naszym komputerze. Oto Operator od OpenAI
OpenAI, firma odpowiedzialna za ChatGPT, pracuje nad wieloma rozwiązaniami opartymi na sztucznej inteligencji i właśnie wprowadziła na rynek kolejne z nich. Narzędzie o nazwie Operator skierowane jest przede wszystkim do firm, bo jego zadaniem jest wspieranie firm w automatyzacji i zarządzeniu procesami biznesowymi w przedsiębiorstwach, choć swoje zastosowanie może również mieć dla użytkowników indywidualnych. Jak tłumaczy OpenAI, nowy agent może wykonywać za nas zadania w sieci. Używając własnej przeglądarki, może przeglądać strony internetowe i wchodzić z nimi w interakcję, przewijając, klikając i pisząc.
Czytaj też: Już możesz testować Androida 16. Google udostępnił pierwszą publiczną wersję beta
Obecnie agent AI jest w fazie podglądu badawczego, co oznacza, że jego działanie jest ograniczone oraz stale ulepszane w oparciu o opinie użytkowników. Na razie został on udostępniony użytkownikom Pro w USA na stronie operator.chatgpt.com. Z czasem zostanie rozszerzony na subskrypcje Plus, Team i Enterprise oraz zintegrowany z ChatGPT, jednak stanie się to dopiero w przyszłości i firma nie podała tutaj żadnych konkretów.
Operator zasilany jest przez nowy model o nazwie Computer-Using Agent (CUA). Łączy w sobie możliwości GPT-4o z zaawansowanym rozumowaniem poprzez wzmacnianie uczenia się, CUA jest trenowany do interakcji z graficznymi interfejsami użytkownika (GUI) — przyciskami, menu i polami tekstowymi, które ludzie widzą na ekranie. Jak tłumaczy OpenAI:
Operator może „widzieć” (za pomocą zrzutów ekranu) i „wchodzić w interakcję” (używając wszystkich działań, na jakie pozwala mysz i klawiatura) z przeglądarką, co pozwala jej na podejmowanie działań w sieci bez konieczności integracji niestandardowych interfejsów API. Jeśli napotka wyzwania lub popełni błędy, Operator może wykorzystać swoje zdolności rozumowania, aby dokonać samokorekty.
Czytaj też: YouTube Premium z pakietem nowych funkcji do wypróbowania
Jeśli chodzi o zakres działań, Operator może wypełniać formularze, zamawiać artykuły spożywcze czy tworzyć memy. Tak naprawdę jest w stanie używać tych samych interfejsów i narzędzi, z którymi my wchodzimy w interakcję. Gdy na jakimś etapie agent utknie lub będzie potrzebował pomocy, po prostu przekaże kontrolę użytkownikowi. Natomiast gdy podczas pracy pojawi się konieczność wprowadzenia poufnych danych, takich jak hasła czy dane osobowe w rubrykach w formularzach weryfikacyjnych, to również będziemy musieli zrobić sami.
Operator może już współpracować z takimi serwisami, jak Etsy, Booking.com, Uber i Instacart. Dzięki wykorzystaniu możliwości modeli językowych firmy, agent jest w stanie rozumieć i realizować skomplikowane zadania, co na pewno przyda się w firmowych działaniach, takich jak koordynacja pracy zespołów czy analiza dużych zbiorów danych. Tak samo, jak w przypadku korzystania z wielu kart w przeglądarce, możemy zlecić mu jednoczesne wykonywanie wielu zadań, by zaoszczędzić czas.
Aby rozpocząć, po prostu opisz zadanie, które chcesz wykonać, a Operator zajmie się resztą. Użytkownicy mogą przejąć kontrolę nad zdalną przeglądarką w dowolnym momencie, a Operator jest przeszkolony, aby proaktywnie prosić użytkownika o przejęcie zadań, które wymagają logowania, danych płatniczych lub rozwiązywania CAPTCHA.