Najnowszy model Meta, Llama 4 Scout, posiada imponujące okno kontekstowe o wielkości 10 milionów tokenów, co pozwala mu przetwarzać ogromne ilości tekstu (około 5 milionów słów) i obrazów (około 10 000). Model ten ma więc potencjał do przetworzenia całej historii aktywności użytkownika na platformach Meta (Facebook, Instagram, Messenger) oraz danych śledzonych przez Meta w innych miejscach w sieci. Tymczasem Już na początku tego roku serwis Wired pisał szerzej o tym, jak Meta rzekomo wykorzystała zbiór danych LibGen (Library Genesis) do szkolenia swoich modeli językowych z rodziny Llama. LibGen to określany mianem “shadow library” to baza zawierająca ogromną ilość prac naukowych i książek, często udostępnianych bez zgody i rekompensaty dla autorów.
Artykuł z Wired informował o odtajnieniu dokumentów sądowych w toczącej się przeciw koncernowi Meta sprawie dotyczącej naruszenia praw autorskich. Dokumenty te ujawniają i wskazują na pełną świadomość wątpliwej reputacji zbioru danych LibGen i to nawet wśród najwyżej postawionych osób decyzyjnych, w tym Marka Zuckerberga. Przedstawiciele Meta odpierają te zarzuty, twierdząc, że pozywający koncern wiedzieli o wykorzystaniu LibGen już w lipcu 2024 roku i że ich próby wniesienia dodatkowych roszczeń są zagraniem na ostatnią chwilę opartym na fałszywym i podburzającym założeniu.
Czytaj też: Meta prezentuje rodzinę modeli językowych LLama 4. Domowe pecety odpadają
Niezależnie od sądowej batalii, jaką prowadzi Meta, możliwości najnowszych modeli z rodziny Llama 4 robią ogromne wrażenie i prowokują do snucia pewnych scenariuszy, do skłania się jeden z autorów piszących dla serwisu The Register. Potencjalne implikacje etyczne i społeczne wykorzystania danych osobowych do tworzenia cyfrowych replik przez AI wydają się znaczące. Meta może wykorzystać ogromne ilości danych generowanych przez użytkowników na platformach takich jak Facebook, Instagram i Messenger, a także dane zbierane z innych monitorowanych stron internetowych, do stworzenia tzw. “simulacrum” swoich użytkowników z niemal doskonałą wiernością.
Kolejną implikacją etyczną jest potencjalne naruszenie autonomii i tożsamości jednostki. Stworzenie cyfrowej repliki, która jest trudna do odróżnienia od prawdziwej osoby, może prowadzić do sytuacji, w której działania i wypowiedzi tej repliki są przypisywane prawdziwej osobie, bez jej wiedzy i zgody. To może mieć negatywne konsekwencje dla reputacji i relacji społecznych. Wydaje mi się, że nie muszę pisać więcej, aby pobudzić do dyskusji i rozmyślania nad kierunkiem, w którym wszyscy zmierzamy.