Obserwuje świat i wyciąga wnioski – nowy model AI – V-JEPA 2 od Meta

Czy sztuczna inteligencja może uczyć się jak człowiek – przez obserwację, bez instrukcji, bez etykiet? Meta przekonuje, że tak. I właśnie dlatego udostępniła światu V-JEPA 2, nową wersję swojego modelu świata, czyli AI, która nie tylko rozumie to, co widzi, ale potrafi też przewidywać, planować i działać. Co więcej – bez potrzeby wcześniejszego poznania środowiska.

Czym jest world model?

Zanim przejdziemy do szczegółów, warto wyjaśnić pojęcie modelu świata (ang. world model). To system AI, który uczy się praw fizyki i logiki otaczającego nas świata na podstawie obserwacji – głównie wideo. Dzięki temu potrafi rozpoznać obiekty, przewidzieć ich ruchy i zaplanować własne działania w realnym środowisku.

Brzmi znajomo? Tak właśnie działa człowiek. Uczymy się intuicji fizycznej, zanim zaczniemy mówić. Wiemy, że rzucona piłka spadnie na ziemię, a wrzątek może nas poparzyć. Nie potrzebujemy do tego setek wykładów z fizyki – wystarczą obserwacje i doświadczenia.

V-JEPA 2 – ewolucja zdolności przewidywania

V-JEPA 2 (Video Joint Embedding Predictive Architecture 2) to rozwinięcie architektury JEPA, którą Meta opracowała już w 2022 roku. Ten nowy model zawiera 1,2 miliarda parametrów i jest trenowany na ponad milionie godzin wideo oraz milionie obrazów, co czyni go jednym z najbardziej zaawansowanych narzędzi w tej kategorii.

Kluczowa cecha? Uczenie samodzielne (self-supervised learning). Oznacza to, że model uczy się bez potrzeby ręcznego oznaczania danych. Sam wyciąga wnioski z tego, co widzi.

Dwie fazy treningu

V-JEPA 2 przechodzi przez dwustopniowy proces nauki:

Trening bezakcyjny – model uczy się ogólnych wzorców i zależności w świecie fizycznym na podstawie pasywnych obserwacji.
Trening z danymi robotów – dodaje informacje o działaniach (np. ruchach robota), co pozwala na planowanie i przewidywanie skutków konkretnych działań.

Dzięki temu model może działać w trybie zero-shot – czyli planować i kontrolować ruchy robotów w zupełnie nowych sytuacjach i środowiskach, których nigdy wcześniej nie widział.

Co potrafi V-JEPA 2?

Możliwości modelu są imponujące, szczególnie z punktu widzenia robotyki:

Rozumienie fizyki: przewiduje, jak obiekty będą się poruszać i wchodzić w interakcje.
Planowanie bez instrukcji: wykonuje zadania bez wcześniejszego trenowania w danym środowisku.
Reakcja na nowe bodźce: potrafi podjąć trafne decyzje, analizując bieżącą sytuację i cel.

W praktyce? Robot może podnieść nieznany wcześniej przedmiot i umieścić go we wskazanym miejscu – bazując jedynie na obrazie celu i analizie konsekwencji możliwych działań.

Nowe benchmarki: mierzymy rozumienie rzeczywistości

Meta nie poprzestała na samym modelu. Udostępniła też trzy benchmarki, które pozwalają ocenić zdolność modeli AI do zrozumienia świata:

IntPhys 2 – testuje zdolność wykrywania naruszeń praw fizyki (np. znikających obiektów).
MVPBench – sprawdza zrozumienie subtelnych różnic w zachowaniu obiektów w niemal identycznych scenariuszach.
CausalVQA – mierzy zdolność odpowiadania na pytania przyczynowo-skutkowe (np. „co by było gdyby…”).

Człowiek osiąga tu wynik 85–95%. V-JEPA 2 i inne modele AI? Znacznie mniej. To pokazuje, że mimo postępu, przed nami jeszcze długa droga do osiągnięcia pełnej intuicji fizycznej u maszyn.

Dlaczego to ważne?

V-JEPA 2 nie tylko rozpoznaje obiekty, ale uczy się zasad rządzących światem. To fundamentalna zmiana. Wcześniej AI musiała być karmiona milionami opisanych danych. Teraz wystarczy obserwacja. Oznacza to ogromny potencjał w obszarach takich jak:

automatyka i robotyka,
planowanie w nieznanych środowiskach,
interakcja człowiek–maszyna bez żmudnego programowania.

Można to porównać do nauczyciela, który już nie musi pokazywać uczniowi każdego kroku. Wystarczy, że uczeń będzie obserwował otoczenie i sam nauczy się działać.

Meta zapowiada, że to dopiero początek. Plany obejmują rozwijanie hierarchicznych modeli – takich, które będą potrafiły planować działania w różnych horyzontach czasowych. Docelowo mają powstać systemy, które nie tylko rozumieją obraz i ruch, ale też dźwięk i dotyk.

Model V-JEPA 2 i towarzyszące mu benchmarki zostały udostępnione jako open source – zarówno na GitHubie, jak i Hugging Face. To ruch, który ma przyspieszyć rozwój całej branży i przybliżyć nas do Advanced Machine Intelligence (AMI) – poziomu AI, który będzie rzeczywiście użyteczny i autonomiczny.

Czy AI, które widzi, rozumie i planuje, stanie się nowym standardem? Obserwujmy uważnie – tym razem to nie tylko maszyna patrzy na świat, ale świat patrzy na nią.

Czytaj dalej:

AI slop – zjawisko, które degeneruje dziś treści w sieci

ChatGPT w pracy biurowej – kiedy można go używać, a jakie sytuacje go wykluczają

Gdzie pojechać na majówkę? Określ swoje preferencje i zapytaj chatbota

Cyberlekcje 3.0 pozwolą zrozumieć i przekazywać wiedzę o zagrożeniach technologicznych w sieci

Sztuczna inteligencja “uczy się” o Rzymie. DeepMind otwiera nową epokę w badaniach nad starożytnością

Chińscy operatorzy koparek przenoszą plac budowy do biura. AI już szykuje się, by przejąć joystick

Jak Polska radzi sobie z adaptacją generatywnej AI? Sprawdzamy w raporcie Generative AI Adoption

CERT Orange Polska podsumowuje 10 lat ochrony użytkowników przed zagrożeniami w sieci. Co zmieniło AI?

Zakupy bez kliknięcia. Agentic AI zmieni e-commerce szybciej, niż myślisz

Windsurf chce przejąć kontrolę nad całym procesem inżynierii oprogramowania

Potencjał i aspiracje mamy. Polska może wziąć udział w wyścigu o AI

Szwajcarska firma IT sięga po prywatną chmurę dla AI

Rewolucja w animacji. Runway Act-Two pozwala każdemu przenieść ruch i mimikę na dowolną postać w kilka sekund