Nowy wskaźnik Remote Labor Index obnaża ograniczenia automatyzacji. Agenci AI zostali poddani testowi prawdy: próbie realizacji rzeczywistych zleceń freelancerskich o łącznym szacowanym nakładzie pracy ponad 6000 godzin. Nawet najlepszy model osiągnął wynik daleki od oczekiwań. Granica skuteczności modeli AI na dziś wynosi 4%.

    W debacie publicznej często padają pytania o to, kiedy sztuczna inteligencja zacznie realnie zastępować ludzką pracę. Choć modele językowe osiągają imponujące wyniki w testach wiedzy, ich rzeczywista wartość ekonomiczna w złożonych projektach pozostawała trudna do zmierzenia. Lukę tę wypełnia Remote Labor Index (RLI) – nowy, rygorystyczny benchmark, który sprowadza entuzjastów automatyzacji na ziemię.

    Nowa miara wartości ekonomicznej

    Remote Labor Index, opracowany przez badaczy z Center for AI Safety oraz Scale AI, jest zbudowany w oparciu o badanie obejmujące przedstawicieli firm wielu sektorów. Jest punktem odniesienia pozwalającym na ocenę wydajności agentów AI w realnych, ekonomicznie wartościowych projektach zdalnych. W przeciwieństwie do tradycyjnych testów opartych na wiedzy teoretycznej, RLI skupia się na ocenie projektów typu „end-to-end” w praktycznych ustawieniach.

    Skala przedsięwzięcia jest znacząca, w budowie indeksu uwzględniono rzeczywiste projekty dla freelancerów, zaplanowane na ponad 6 000 godzin pracy ludzkiej np. przy przygotowywaniu animacji wideo, wizualizacji danych, opracowywaniu projektów architektonicznych, pisaniu gier czy opracowywaniu dokumentacji naukowej. Niektóre z pojedynczych zadań wyceniane były na ponad 10 tys. dolarów i wymagały ponad 100 godzin pracy profesjonalisty.

    AI przegrywa z freelancerami

    Najważniejszym wnioskiem z raportu jest fakt, że współczesne systemy AI radzą sobie z tymi zadaniami zaskakująco słabo. Podczas gdy AI dominuje w wielu istniejących benchmarkach, w przypadku RLI najlepszy wynik automatyzacji wyniósł zaledwie 4,17%. Oznacza to, że agenci AI nie są w stanie ukończyć zdecydowanej większości projektów na poziomie jakości, który zostałby zaakceptowany przez zleceniodawcę.

    Tabela wyników liderów rynku w rankingu RLI

    ModelStopień automatyzacji (%)
    Opus 4.64,17
    Opus 4.53,75
    Manus 1.62,92
    GPT-5.22,50
    Manus 1.52,50
    Grok 42,08

    Nawet najbardziej zaawansowane modele, takie jak GPT-5.2 czy Opus 4.6, wciąż znajdują się zatem na bardzo wczesnym etapie drogi do pełnej automatyzacji złożonej pracy zdalnej.

    Wprowadzenie wskaźnika RLI może mieć kluczowe znaczenie dla liderów biznesu i decydentów z kilku powodów. Po pierwsze oznacza koniec z domysłami: indeks opiera się na twardych danych empirycznych, zamiast na spekulacjach. POnadto, pozwala na monitorowanie postępu. O ile obecne wyniki są niskie, modele stale się poprawiają. Pozwala to firmom śledzić realną trajektorię rozwoju technologii i reagować na nadchodzące zmiany na rynku pracy. Wyniki te sugerują, że w najbliższym czasie AI pozostanie raczej narzędziem wspierającym (copilot), a nie samodzielnym wykonawcą złożonych zleceń freelancerskich.

    CZYTAJ TEŻ: Kobiety w AI w Polsce coraz ważniejsze

    CZYTAJ TEŻ: Nadchodzi eksplozja popytu na energię przez AI. Czy Big Techy są skazane na Europę i czy pozbawią nas prądu?