Mówisz, że bez budżetu i sprzętu się nie da? Patrz na Chińczyków i ich konkurenta dla GPT-4 od OpenAI

Trening dużego modelu językowego GPT-4 od OpenAI mógł kosztować od 80 do nawet 100 mln dolarów, a cały proces wymagał wielu tysięcy jednostek wyspecjalizowanych układów graficznych, które dostarczyła Nvidia. A jeśli nie ma się takiego budżetu i dostępu do infrastruktury? Można iść drogą Chińczyków ze startupu 01.ai, założonego przez słynnego Kai-Fu Lee, eksperta w dziedzinie sztucznej inteligencji. Zbudowany przez nich duży model językowy Yi-Lightning poddano treningowi z użyciem zaledwie dwóch tysięcy układów graficznych, a koszt całej operacji wyniósł niespełna 3 mln dolarów. Co więcej okazało się, że chiński konkurent GPT-4 mocno nie odstaje od topowych rozwiązań gigantów.
Mówisz, że bez budżetu i sprzętu się nie da? Patrz na Chińczyków i ich konkurenta dla GPT-4 od OpenAI

Uważa się, że OpenAI do treningu modelu GPT-3 wykorzystało około 10 tys. układów graficznych A100 od Nvidii. Do treningu GPT-4 oraz GPT-4o wykorzystano natomiast więcej GPU typu H100, ale warto wspomnieć, że jedna sztuka takiego układu od Nvidii może kosztować nawet 30 tys. dolarów. Reasumując, w domu sobie takiego modelu nie wytrenujecie. Tymczasem 01.ai miało do dyspozycji zaledwie 2 tys. GPU nieujawnionego pochodzenia, którymi wytrenowało swój LLM o nazwie Yi-Lightning i po analizie wyszło na to, że ich rozwiązanie uplasowało się na szóstej pozycji pod względem wydajności mierzonej przez organizację LMSYS (The Large Model Systems Organisation) na Uniwersytecie stanu Kalifornia w Berkeley.

Tym samym 01.ai udowodniło, że nawet w sytuacji ograniczonych zasobów finansowych oraz sprzętowych możliwe jest skuteczne wytrenowanie dużego modelu językowego AI, stosując szereg optymalizacji leżących głównie po stronie oprogramowania. Udało się w ten sposób zmniejszyć koszty całej operacji do poziomu ok. 10 centów za milion tokenów, czyli wartości stanowiącej raptem 1/30 kosztu treningu typowych modeli LLM. Ta znacząca różnica powinna stanowić punkt wyjścia do analiz na temat metod inżynieryjnych, które wykraczają poza typowe skalowanie infrastruktury, jak ma to miejsce w przypadku chociażby OpenAI.

Czytaj też: Wyszukiwarka w ChatGPT – OpenAI na poważnie rywalizuje z Google

Przy tej okazji warto wspomnieć, że w Polsce pracujemy również aktywnie nad własnymi dużymi modelami językowymi, uwzględniającymi lepiej nasz rodzimy język, a najbardziej znanym przykładem takiego przedsięwzięcia jest oczywiście Bielik, który niedawno doczekał się swojego drugiego wcielenia. Został wytrenowany na infrastrukturze Akademickiego Centrum Komputerowego Cyfronet AGH w Krakowie. Warto wspomnieć, że to właśnie tam powstanie centrum badawczo-rozwojowe określane dumnie mianem Fabryki Sztucznej Inteligencji, na które niedawno rządzący przyznali 70 mln zł subwencji, a projekt współfinansuje Unia Europejska.