Claude 3.5 Sonnet od Anthropic zjada GPT-4o i Gemini 1.5 Pro. OpenAI i Google mają powody do obaw?

Anthropic ma w swoim portfolio trzy modele językowe z serii Claude. Haiku to najprostszy i jednocześnie najbardziej zwinny z nich, zaprojektowany do prostych codziennych zadań. Drugim w kolejności jest wspomniany Sonnet, mający stanowić złoty środek między szybkością i poziomem złożoności. Do najbardziej skomplikowanych projektów przeznaczony jest z kolei Opus, który siłą rzeczy będzie wymagać od użytkownika nieco więcej cierpliwości. W tym kontekście wydaje się dość ciekawe, że według danych Anthropic najnowszy Claude 3.5 Sonnet przetwarza dane wejściowe dwa razy szybciej niż Opus.

Co więcej, firma twierdzi, że Sonnet wyprzedził poprzedni model Opus pod względem wyzwań związanych z kodowaniem, notując wynik 64% poprawek błędów w kodzie w porównaniu do 38% w przypadku Opus. Są też wyniki testów porównawczych z modelami językowymi konkurentów (GPT-4o od OpenAi, Gemini 1.5 Pro od Google i Llama-40 od Mety), wskazująco na rzekomą przewagę w siedmiu z dziewięciu ogólnych kategorii i czterech z pięciu zadań związanych z przetwarzaniem obrazu. Do tych przechwałek warto rzecz jasna podchodzić z pewną rezerwą i poczekać na w pełni niezależne analizy, ale już teraz widać, że nawet względem swojego poprzednika Claude 3.5 Sonnet poczynił spore postępy.

Czytaj też: OpenAI prezentuje nowy model GPT-4o – sztuczna inteligencja staje się zdolna do pracy w czasie rzeczywistym

Nowością w Claude 3.5 Sonnet jest funkcja o nazwie Artifacts. Dzięki niej użytkownik może wygodniej wchodzić w interakcje z wynikami swoich rozmów z Claude bezpośrednio z poziomu aplikacji na stronie. Na przykład, jeśli poprosimy model o zaprojektowanie plakatu na koncert, zobaczymy w osobnym oknie jego podgląd i będziemy mogli w dowolnym momencie poddać go edycji. Funkcja jest na razie w fazie poglądowej, więc może nie działać stabilnie. Na etapie testów poprosiłem Claude 3.5 Sonnet właśnie o takie zadanie i cytując klasyka: u mnie działa. Na szczęście sami możecie to sprawdzić – wystarczy założyć bezpłatne konto i skorzystać z nowego modelu.

No dobrze, a co z szeroko pojętym bezpieczeństwem? Claude 3.5 Sonnet poddano zewnętrznej ewaluacji przez brytyjskie i amerykańskie instytuty specjalizujące się w tej tematyce. Specjalistom udało się ustalić, że model pozostał na drugim poziomie ASL (AI Safety Levels), charakterystycznym dla większości dużych modeli językowych. Więcej informacji w tym zakresie przyniosą pewnie kolejne miesiące, podczas których wyjdzie na światło dzienne ile są warte odważne zapewnienia Anthropic dotyczące możliwości jakie kryje w sobie nowy LLM, szczególnie pod kątem starcia z bezpośrednią konkurencją.