Meta prezentuje rodzinę modeli językowych LLama 4. Domowe pecety odpadają

Meta ogłosiła premierę Llama 4, nowej generacji swoich flagowych modeli AI, składającej się z trzech wariantów — Scout, Maverick i Behemoth. Modele te charakteryzują się natywną multimodalnością, obsługując tekst, obrazy i wideo, oraz wykorzystują architekturę MoE (ang. Mixture of Experts). W architekturze MoE zadania przetwarzania danych są dzielone na mniejsze zadania i delegowane do wyspecjalizowanych “eksperckich” modeli dla większej efektywności. Llama 4 Scout wyróżnia się ogromnym oknem kontekstowym mogącym pomieścić do 10 milionów tokenów, a Llama 4 Maverick osiąga lepsze wyniki w benchmarkach od poprzednich modeli, w tym GPT-4o i Gemini 2.0.
Meta prezentuje rodzinę modeli językowych LLama 4. Domowe pecety odpadają

Na początek rozszyfrujmy, w jaki sposób działa wspomniana architektura MoE (ang. Mixture of Experts). W uczeniu maszynowym działa ona jak zespół specjalistów. Składa się z dwóch głównych komponentów: sieci eksperckich i sieci bramkowych. Pierwsze to mniejsze, wyspecjalizowane modele, które skupiają się na konkretnych aspektach problemu. Każdy ekspert jest doskonalony w rozwiązywaniu określonej części zadania. Sieci bramkowe pełnią z kolei rolę selektora, decydując, który ekspert powinien być użyty dla danego wejścia. W uproszczeniu działa to następująco:

  1. Wejście: dane są wprowadzane do systemu;
  2. Sieć bramkowa: decyduje, który ekspert jest najlepszy dla danego wejścia;
  3. Sieci eksperckie: wybrani eksperci generują prognozy;
  4. Wyjście: ostateczna prognoza jest kombinacją wyników od wybranych ekspertów.

W tradycyjnych LLM-ach wszystkie zadania są przetwarzane przez pojedynczą, gęsto upakowaną sieć neuronową (taki wszystkowiedzący wujek), ale w przypadku rozwiązywania bardziej złożonych problemów nie radzi sobie z nimi najlepiej. Architektura MoE pozwala na efektywne wykorzystanie zasobów obliczeniowych, ponieważ tylko wybrani eksperci (wyspecjalizowane modele) są aktywowani dla danego zadania, co przyspiesza proces obliczeń i poprawia dokładność wyników.

Poznajmy rodzinę LLama 4 – Scout, Maverick i Behemoth

Llama 4 Scout to model o 17 miliardach aktywnych parametrów z 16 ekspertami. Meta chwali go jako najlepszego na świecie w swojej klasie pod względem możliwości multimodalnych. Wrażenie robi okno kontekstowe o długości 10 milionów tokenów. Scout jest zaprojektowany do działania na pojedynczym GPU Nvidia H100. Meta twierdzi, że przewyższa modele takie jak Gemma 3, Gemini 2.0 Flash-Lite i Mistral 3.1 w wielu benchmarkach.

Llama 4 Maverick to model o 17 miliardach aktywnych parametrów ze 128 ekspertami. Tu znów Meta przechwala go jako najlepszego w swojej klasie pod względem stosunku wydajności do kosztu. Rzekomo przewyższa GPT-4o i Gemini 2.0 Flash w wielu benchmarkach dotyczących kodowania, rozumowania, wielojęzyczności, długiego kontekstu i obrazu. Jest porównywalny z DeepSeek v3 pod względem rozumowania i kodowania, ale przy połowie parametrów. Wymaga do działania systemu Nvidia H100 DGX lub jego ekwiwalentu.

Llama 4 Behemoth jak sugeruje sama nazwa to prawdziwe monstrum z ponad dwoma bilionami parametrów całkowitych i 288 miliardami aktywnych parametrów z 16 ekspertami. Jest jeszcze w trakcie treningu, ale Meta twierdzi, że jest to najwydajniejszy model bazowy na świecie i przewyższa GPT-4.5, Claude 3.7 Sonnet i Gemini 2.0 Pro w kilku benchmarkach STEM. Służy jako tzw. model nauczycielski do destylacji wiedzy do mniejszych modeli Llama 4.

Czytaj też: Facebook z treściami wyłącznie od znajomych? Meta wykonuje niespodziewany zwrot

Scout i Maverick są publicznie dostępne na Llama.com i u partnerów Meta, w tym na platformie Hugging Face. Dobra wiadomość dla zwykłych śmiertelników jest taka, że Meta AI, czyli asystent AI zintegrowany z aplikacjami Meta (WhatsApp, Messenger, Instagram), został już zaktualizowany do korzystania z rodziny modeli Llama 4 w 40 krajach. Funkcje multimodalne są na razie ograniczone do USA i języka angielskiego.