Czołowe modele LLM, jak Claude czy Gemini, mimo rygorystycznych zabezpieczeń, wciąż mogą „recytować” treści chronionych prawem autorskim książek niemal słowo w słowo.
Zespół badawczy w składzie: Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo oraz Percy Liang opublikował wyniki eksperymentu, który rzuca nowe światło na problem zapamiętywania danych treningowych przez duże modele językowe. Choć uważa się, że systemy te nie przechowują dosłownych kopii tekstów, na których się uczyły, naukowcy udowodnili, że przy zastosowaniu odpowiednich technik możliwe jest wydobycie z “pamięci” LLM-ów ogromnych fragmentów literatury. Badanie zostało przeprowadzone przy wsparciu m.in. Simons Foundation oraz instytucji partnerskich arXiv.
Hakowanie danych treningowych w dwóch krokach
Badacze opracowali dwufazową procedurę, mającą na celu sprawdzenie szczelności filtrów bezpieczeństwa. W pierwszej kolejności, przeprowadzili wstępne sondowanie: testowanie możliwości ekstrakcji, często z wykorzystaniem techniki „Best-of-N” (BoN) jailbreak, mającej na celu obejście blokad systemowych. Na drugim etapie poprzez podawanie modelu kolejnych promptów, zmuszali modele do generowania dalszych części tekstu. Skuteczność mierzono za pomocą wskaźnika nv-recall, który określa, jak duża część tekstu wygenerowanego przez AI pokrywa się z oryginałem.
Wyniki eksperymentów przeprowadzonych między sierpniem a wrześniem 2025 roku są zaskakujące. Okazało się, że niektóre modele udostępniają chronione treści bez większych oporów. Claude 3.7 Sonnet po zastosowaniu techniki jailbreak, był w stanie wygenerować niemal całe książki z rekordową dokładnością 95,8% nv-recall. Gemini 2.5 Pro oraz Grok 3: nie wymagały stosowania jailbreaków, aby oferować dostęp do tekstów takich jak Harry Potter i Kamień Filozoficzny (odpowiednio ze zgodnością 76,8% i 70,3% nv-recall). Najbardziej odporny okazał się GPT-4.1. Model ten wymagał znacznie więcej prób (nawet 20-krotnie więcej podejść BoN), a ostatecznie często odmawiał dalszej współpracy, osiągając zaledwie 4,0% nv-recall.
Ryzyko prawne i etyczne
Autorzy publikacji podkreślają, że ekstrakcja danych treningowych stanowi poważne ryzyko dla produkcyjnych modeli AI, nawet przy wdrożonych zabezpieczeniach na poziomie systemowym. Odkrycia te mają kluczowe znaczenie dla toczących się sporów prawnych dotyczących praw autorskich i sposobu, w jaki algorytmy przetwarzają własność intelektualną.
Zgodnie z zasadami odpowiedzialnego ujawniania informacji, autorzy powiadomili dostawców technologii o wykrytych lukach bezpośrednio po zakończeniu testów, zachowując 90-dniowy okres poufności przed upublicznieniem raportu w styczniu 2026 roku.
CZYTAJ TEŻ: Chińskie AI porwało amerykańskich programistów
CZYTAJ TEŻ: Sztuczna inteligencja czyta w snach

