AI kontra skrzecząca rzeczywistość

Nowy wskaźnik Remote Labor Index obnaża ograniczenia automatyzacji. Agenci AI zostali poddani testowi prawdy: próbie realizacji rzeczywistych zleceń freelancerskich o łącznym szacowanym nakładzie pracy ponad 6000 godzin. Nawet najlepszy model osiągnął wynik daleki od oczekiwań. Granica skuteczności modeli AI na dziś wynosi 4%.

W debacie publicznej często padają pytania o to, kiedy sztuczna inteligencja zacznie realnie zastępować ludzką pracę. Choć modele językowe osiągają imponujące wyniki w testach wiedzy, ich rzeczywista wartość ekonomiczna w złożonych projektach pozostawała trudna do zmierzenia. Lukę tę wypełnia Remote Labor Index (RLI) – nowy, rygorystyczny benchmark, który sprowadza entuzjastów automatyzacji na ziemię.

Nowa miara wartości ekonomicznej

Remote Labor Index, opracowany przez badaczy z Center for AI Safety oraz Scale AI, jest zbudowany w oparciu o badanie obejmujące przedstawicieli firm wielu sektorów. Jest punktem odniesienia pozwalającym na ocenę wydajności agentów AI w realnych, ekonomicznie wartościowych projektach zdalnych. W przeciwieństwie do tradycyjnych testów opartych na wiedzy teoretycznej, RLI skupia się na ocenie projektów typu „end-to-end” w praktycznych ustawieniach.

Skala przedsięwzięcia jest znacząca, w budowie indeksu uwzględniono rzeczywiste projekty dla freelancerów, zaplanowane na ponad 6 000 godzin pracy ludzkiej np. przy przygotowywaniu animacji wideo, wizualizacji danych, opracowywaniu projektów architektonicznych, pisaniu gier czy opracowywaniu dokumentacji naukowej. Niektóre z pojedynczych zadań wyceniane były na ponad 10 tys. dolarów i wymagały ponad 100 godzin pracy profesjonalisty.

AI przegrywa z freelancerami

Najważniejszym wnioskiem z raportu jest fakt, że współczesne systemy AI radzą sobie z tymi zadaniami zaskakująco słabo. Podczas gdy AI dominuje w wielu istniejących benchmarkach, w przypadku RLI najlepszy wynik automatyzacji wyniósł zaledwie 4,17%. Oznacza to, że agenci AI nie są w stanie ukończyć zdecydowanej większości projektów na poziomie jakości, który zostałby zaakceptowany przez zleceniodawcę.

Tabela wyników liderów rynku w rankingu RLI

Model	Stopień automatyzacji (%)
Opus 4.6	4,17
Opus 4.5	3,75
Manus 1.6	2,92
GPT-5.2	2,50
Manus 1.5	2,50
Grok 4	2,08

Nawet najbardziej zaawansowane modele, takie jak GPT-5.2 czy Opus 4.6, wciąż znajdują się zatem na bardzo wczesnym etapie drogi do pełnej automatyzacji złożonej pracy zdalnej.

Wprowadzenie wskaźnika RLI może mieć kluczowe znaczenie dla liderów biznesu i decydentów z kilku powodów. Po pierwsze oznacza koniec z domysłami: indeks opiera się na twardych danych empirycznych, zamiast na spekulacjach. POnadto, pozwala na monitorowanie postępu. O ile obecne wyniki są niskie, modele stale się poprawiają. Pozwala to firmom śledzić realną trajektorię rozwoju technologii i reagować na nadchodzące zmiany na rynku pracy. Wyniki te sugerują, że w najbliższym czasie AI pozostanie raczej narzędziem wspierającym (copilot), a nie samodzielnym wykonawcą złożonych zleceń freelancerskich.

CZYTAJ TEŻ: Kobiety w AI w Polsce coraz ważniejsze

CZYTAJ TEŻ: Nadchodzi eksplozja popytu na energię przez AI. Czy Big Techy są skazane na Europę i czy pozbawią nas prądu?

AI kontra skrzecząca rzeczywistość

Nowa miara wartości ekonomicznej

AI przegrywa z freelancerami

Nadchodzi eksplozja popytu na energię przez AI. Czy Big Techy są skazane na Europę i czy pozbawią nas prądu?

Kapitulacja poznawcza: “decyzje” wspomagane AI

Gotowość polskich firm do AI spada

AI kontra skrzecząca rzeczywistość

Nowa miara wartości ekonomicznej

AI przegrywa z freelancerami

Polecane

Nadchodzi eksplozja popytu na energię przez AI. Czy Big Techy są skazane na Europę i czy pozbawią nas prądu?

Kapitulacja poznawcza: “decyzje” wspomagane AI

Gotowość polskich firm do AI spada