Modelom językowym zabraknie danych do nauki. Treści stworzone przez ludzi zaczną się kończyć już w 2026 roku

Rozwój modeli językowych, takich jak GPT-4o, wiąże się z ogromnym zapotrzebowaniem na dane tekstowe. Dotychczasowe tempo skalowania sugeruje, że rezerwy treści generowanych przez ludzi mogą wyczerpać się już między 2026 a 2032 rokiem. Problem ten stawia pytania o przyszłość sztucznej inteligencji i jej dalszy rozwój w obliczu ograniczeń zasobów danych. Przyglądamy się wnioskom badaczy z instytutu Epoch AI.

Skalowanie modeli a wyzwania danych

Współczesne modele językowe bazują na miliardach parametrów i bilionach tokenów – jednostek tekstowych odpowiadających fragmentom słów lub całym wyrazom. Szacuje się, że całkowity zasób ludzkiej treści dostępnej publicznie wynosi około 300 bilionów tokenów, z czego jedynie część spełnia standardy jakościowe niezbędne do efektywnego treningu. Przy obecnym tempie rozwoju, modele takie jak Llama 3, które wykorzystują nawet 10-krotnie większe zasoby danych, niż jest to optymalne, mogą wyczerpać te zasoby już do 2025 roku.

Ustalony przedział ufności (80%), zakłada, że zasób danych zostanie w pełni wykorzystany w pewnym momencie między 2026 a 2032 rokiem. Jednak dokładny moment, w którym te dane zostaną w pełni wykorzystane, zależy od tego, jak skalowane są modele. Będą potrzebne kolejne innowacje w obszarze LLM, aby utrzymać postęp po 2030 r.
Wynika z opracowania Epoch AI

Obecnie największe modele są trenowane na zbiorach danych obejmujących teksty z Common Crawl, publikacje naukowe, książki oraz posty w mediach społecznościowych. Jednakże intensywna eksploatacja tych źródeł sprawia, że już teraz dochodzi do wielokrotnego wykorzystywania tych samych zbiorów. Modele są więc „przetrenowywane”, co przyspiesza tempo zużycia dostępnych zasobów.

Projekcje przyszłych rozmiarów zestawów danych według trzech różnych zasad skalowania. W zależności od stopnia przetrenowania, zapasy są w pełni wykorzystywane między 2025 a 2030 rokiem / Fot. Epoch AI

Dane syntetyczne i inne źródła

Alternatywą dla danych generowanych przez ludzi są dane syntetyczne – treści tworzone przez same modele językowe. Według badań takie podejście pozwala na częściowe uzupełnienie braków, jednak niesie ryzyko obniżenia jakości wyników. Modele mogą zacząć „uczyć się od siebie”, co prowadzi do spadku różnorodności i wartości informacyjnej generowanych odpowiedzi.

Kolejnym kierunkiem jest integracja danych z innych modalności, takich jak obrazy, dźwięki czy wideo. Na przykład, jedna sekunda wideo może być przeliczona na około 30 tokenów tekstowych, co otwiera nowe możliwości, ale nie zastępuje w pełni potrzeby korzystania z tekstu. Nadal to właśnie tekst jest kluczowym zasobem determinującym zdolności modeli językowych.

Czy grozi nam stagnacja w rozwoju modeli?

Choć wizja wyczerpania danych generowanych przez ludzi wydaje się alarmująca, istnieją techniki pozwalające na częściowe złagodzenie tego problemu. Jedną z nich jest „niedotrenowanie” modeli, czyli wykorzystanie mniejszych zbiorów danych, co pozwala na zwiększenie efektywności ich użycia. Tego typu strategie mogą wydłużyć czas dostępności danych o kilka lat, ale ostatecznie nie rozwiążą problemu.

Według szacunków, przy obecnym tempie rozwoju technologii, modele osiągną granice skalowania do 2030 roku, jeśli nie zostaną opracowane nowe metody pozyskiwania danych lub uczenia maszynowego. Innowacje w zakresie efektywności danych, takie jak lepsze filtrowanie i wykorzystanie danych niskiej jakości, mogą odegrać kluczową rolę w dalszym rozwoju.

Przyszłość modeli językowych

Potencjalne wyczerpanie zasobów danych tekstowych generowanych przez ludzi to sygnał ostrzegawczy dla branży AI. Przyszłość może leżeć w bardziej zrównoważonym podejściu do wykorzystania danych oraz w rozwoju technologii, które pozwolą na skuteczne wykorzystanie mniej oczywistych źródeł informacji. Kluczowe znaczenie będzie miało także wsparcie ludzi w procesie tworzenia treści – zarówno tych przeznaczonych do treningu modeli, jak i nowych form danych.

Modele językowe już teraz zmieniają świat – od edukacji po biznes – ale ich przyszłość zależy od tego, czy naukowcy i inżynierowie znajdą sposób na pokonanie ograniczeń wynikających z dostępności danych. W przeciwnym razie grozi nam spowolnienie lub nawet zatrzymanie rozwoju tej przełomowej technologii.

Zobacz również:

AI slop – zjawisko, które degeneruje dziś treści w sieci

ChatGPT w pracy biurowej – kiedy można go używać, a jakie sytuacje go wykluczają

Gdzie pojechać na majówkę? Określ swoje preferencje i zapytaj chatbota

Cyberlekcje 3.0 pozwolą zrozumieć i przekazywać wiedzę o zagrożeniach technologicznych w sieci

Sztuczna inteligencja „uczy się” o Rzymie. DeepMind otwiera nową epokę w badaniach nad starożytnością

Chińscy operatorzy koparek przenoszą plac budowy do biura. AI już szykuje się, by przejąć joystick

Jak Polska radzi sobie z adaptacją generatywnej AI? Sprawdzamy w raporcie Generative AI Adoption

CERT Orange Polska podsumowuje 10 lat ochrony użytkowników przed zagrożeniami w sieci. Co zmieniło AI?

Zakupy bez kliknięcia. Agentic AI zmieni e-commerce szybciej, niż myślisz

Windsurf chce przejąć kontrolę nad całym procesem inżynierii oprogramowania

Potencjał i aspiracje mamy. Polska może wziąć udział w wyścigu o AI

Szwajcarska firma IT sięga po prywatną chmurę dla AI

Rewolucja w animacji. Runway Act-Two pozwala każdemu przenieść ruch i mimikę na dowolną postać w kilka sekund

Obserwuje świat i wyciąga wnioski – nowy model AI – V-JEPA 2 od Meta

Czym jest vibe coding i co ma wspólnego z AI?

Google zachwyca swoim najnowszym modelem wideo Veo 3

Donald Trump przedstawił plan dotyczący AI. Wyraził sprzeciw wobec opłat za prawa autorskie

Europa przyspiesza wyścig o suwerenną AI. Gigafabryki, miliardy i ostrzeżenie Nvidii

ChatGPT ma pamiętać wszystko na twój temat. To budzi grozę i ekscytację zarazem

Czy sztuczna inteligencja jest niebezpieczna? To zależy

Jak zyskać na sztucznej inteligencji czas (i pieniądze)?

Dla pracowników IT wynagrodzenie nie jest najważniejsze

Łukasz Kaiser: ekspert stojący za rozwojem machine learning z prestiżową nagrodą

AI w programach edukacyjnych Centrum Kształcenia Podyplomowego Uczelni Łazarskiego

Sztuczna inteligencja „uczy się” o Rzymie. DeepMind otwiera nową epokę w badaniach nad starożytnością

Donald Trump przedstawił plan dotyczący AI. Wyraził sprzeciw wobec opłat za prawa autorskie

Rewolucja w animacji. Runway Act-Two pozwala każdemu przenieść ruch i mimikę na dowolną postać w kilka sekund

Chińscy operatorzy koparek przenoszą plac budowy do biura. AI już szykuje się, by przejąć joystick

Modelom językowym zabraknie danych do nauki. Treści stworzone przez ludzi zaczną się kończyć już w 2026 roku

Skalowanie modeli a wyzwania danych

Dane syntetyczne i inne źródła

Czy grozi nam stagnacja w rozwoju modeli?

Przyszłość modeli językowych

Losy Chrome się ważą. W tle potężna inwestycja i rozwój AI

Licealista z Wrocławia wygrał elitarny konkurs IOAI w Pekinie. To był pokaz talentów z Polski

Microsoft i Meta przeciw cyberprzestępczości – dołączają do Global Signal Exchange

Modelom językowym zabraknie danych do nauki. Treści stworzone przez ludzi zaczną się kończyć już w 2026 roku

Skalowanie modeli a wyzwania danych

Dane syntetyczne i inne źródła

Czy grozi nam stagnacja w rozwoju modeli?

Przyszłość modeli językowych

Polecane