W zeszłym tygodniu chińskie laboratorium DeepSeek wypuściło zaktualizowaną wersję swojego modelu AI do rozumowania – R1 – który osiąga dobre wyniki w różnych testach z matematyki i programowania. Firma nie ujawniła, jakie dane posłużyły do trenowania modelu, ale niektórzy badacze AI spekulują, że przynajmniej część pochodziła z rodziny modeli Gemini od Google.
Sam Paech, programista z Melbourne, który tworzy testy oceniające „inteligencję emocjonalną” sztucznej inteligencji, opublikował rzekomy dowód na to, że najnowszy model DeepSeek był trenowany na danych wygenerowanych przez Gemini. Model DeepSeek, nazwany R1-0528, preferuje słowa i zwroty podobne do tych, które faworyzuje Gemini 2.5 Pro od Google – twierdzi Paech w poście na platformie X.
To jednak nie jest jednoznaczny dowód. Inny programista, działający pod pseudonimem twórca narzędzia „free speech eval” dla AI o nazwie SpeechMap, zauważył, że tzw. „ślady myślowe” generowane przez model DeepSeek – czyli proces rozumowania, który prowadzi model do wniosków – „brzmią jak ślady Gemini”.
Co dalej z DeepSeek?
DeepSeek już wcześniej był oskarżany o trenowanie modeli na danych pochodzących od konkurencyjnych systemów AI. W grudniu deweloperzy zauważyli, że model DeepSeek V3 często przedstawiał się jako ChatGPT – chatbot od OpenAI – co sugeruje, że mógł być trenowany na logach rozmów z ChatGPT.
Na początku tego roku OpenAI poinformowało Financial Times, że znalazło dowody łączące DeepSeek z wykorzystaniem techniki destylacji – sposobu trenowania modeli AI poprzez wyciąganie danych z większych, bardziej zaawansowanych modeli. Według Bloomberga, Microsoft – bliski współpracownik i inwestor OpenAI – wykrył, że pod koniec 2024 roku przez konta deweloperskie OpenAI wyciekły znaczne ilości danych. OpenAI uważa, że konta te są powiązane z DeepSeek.
Destylacja nie jest rzadką praktyką, ale warunki korzystania z usług OpenAI zabraniają klientom wykorzystywania wyników działania ich modeli do budowania konkurencyjnych systemów AI.
Warto dodać, że wiele modeli błędnie się identyfikuje i używa tych samych słów i zwrotów. Dzieje się tak, ponieważ otwarta sieć, która jest głównym źródłem danych treningowych dla firm AI, coraz bardziej zalewana jest przez treści tworzone przez sztuczną inteligencję. Farmy treści wykorzystują AI do produkcji clickbaitu, a boty zalewają Reddita i X.
To „skażenie” danych sprawia, że bardzo trudno jest dokładnie odfiltrować wygenerowane przez AI treści z zestawów treningowych.
Mimo to eksperci, tacy jak Nathan Lambert – badacz z niezależnego instytutu badawczego AI2 – nie wykluczają, że DeepSeek trenował swój model na danych pochodzących z Gemini.
„Gdybym był w DeepSeek, na pewno tworzyłbym tony syntetycznych danych z najlepszego dostępnego modelu API” – napisał Lambert na X. „[DeepSeek] ma mało GPU, ale dużo gotówki. To dosłownie oznacza dla nich więcej dostępnej mocy obliczeniowej”.
Częściowo w celu zapobiegania destylacji firmy zajmujące się AI zwiększają środki bezpieczeństwa.
W kwietniu OpenAI zaczęło wymagać od organizacji przejścia procesu weryfikacji tożsamości, aby uzyskać dostęp do niektórych zaawansowanych modeli. Proces ten wymaga przedstawienia dokumentu tożsamości wydanego przez jedno z państw obsługiwanych przez API OpenAI – na liście nie ma Chin.
Z kolei Google niedawno zaczął „podsumowywać” ślady generowane przez modele dostępne w jego platformie deweloperskiej AI Studio, co utrudnia trenowanie konkurencyjnych modeli na podstawie śladów Gemini. W maju firma Anthropic ogłosiła, że również zacznie podsumowywać ślady swoich modeli, powołując się na potrzebę ochrony swojej „przewagi konkurencyjnej”.
Czytaj też: