Czy sztuczna inteligencja może uczyć się jak człowiek – przez obserwację, bez instrukcji, bez etykiet? Meta przekonuje, że tak. I właśnie dlatego udostępniła światu V-JEPA 2, nową wersję swojego modelu świata, czyli AI, która nie tylko rozumie to, co widzi, ale potrafi też przewidywać, planować i działać. Co więcej – bez potrzeby wcześniejszego poznania środowiska.
Czym jest world model?
Zanim przejdziemy do szczegółów, warto wyjaśnić pojęcie modelu świata (ang. world model). To system AI, który uczy się praw fizyki i logiki otaczającego nas świata na podstawie obserwacji – głównie wideo. Dzięki temu potrafi rozpoznać obiekty, przewidzieć ich ruchy i zaplanować własne działania w realnym środowisku.
Brzmi znajomo? Tak właśnie działa człowiek. Uczymy się intuicji fizycznej, zanim zaczniemy mówić. Wiemy, że rzucona piłka spadnie na ziemię, a wrzątek może nas poparzyć. Nie potrzebujemy do tego setek wykładów z fizyki – wystarczą obserwacje i doświadczenia.
V-JEPA 2 – ewolucja zdolności przewidywania
V-JEPA 2 (Video Joint Embedding Predictive Architecture 2) to rozwinięcie architektury JEPA, którą Meta opracowała już w 2022 roku. Ten nowy model zawiera 1,2 miliarda parametrów i jest trenowany na ponad milionie godzin wideo oraz milionie obrazów, co czyni go jednym z najbardziej zaawansowanych narzędzi w tej kategorii.
Kluczowa cecha? Uczenie samodzielne (self-supervised learning). Oznacza to, że model uczy się bez potrzeby ręcznego oznaczania danych. Sam wyciąga wnioski z tego, co widzi.

Dwie fazy treningu
V-JEPA 2 przechodzi przez dwustopniowy proces nauki:
- Trening bezakcyjny – model uczy się ogólnych wzorców i zależności w świecie fizycznym na podstawie pasywnych obserwacji.
- Trening z danymi robotów – dodaje informacje o działaniach (np. ruchach robota), co pozwala na planowanie i przewidywanie skutków konkretnych działań.
Dzięki temu model może działać w trybie zero-shot – czyli planować i kontrolować ruchy robotów w zupełnie nowych sytuacjach i środowiskach, których nigdy wcześniej nie widział.
Co potrafi V-JEPA 2?
Możliwości modelu są imponujące, szczególnie z punktu widzenia robotyki:
- Rozumienie fizyki: przewiduje, jak obiekty będą się poruszać i wchodzić w interakcje.
- Planowanie bez instrukcji: wykonuje zadania bez wcześniejszego trenowania w danym środowisku.
- Reakcja na nowe bodźce: potrafi podjąć trafne decyzje, analizując bieżącą sytuację i cel.
W praktyce? Robot może podnieść nieznany wcześniej przedmiot i umieścić go we wskazanym miejscu – bazując jedynie na obrazie celu i analizie konsekwencji możliwych działań.
Nowe benchmarki: mierzymy rozumienie rzeczywistości
Meta nie poprzestała na samym modelu. Udostępniła też trzy benchmarki, które pozwalają ocenić zdolność modeli AI do zrozumienia świata:
- IntPhys 2 – testuje zdolność wykrywania naruszeń praw fizyki (np. znikających obiektów).
- MVPBench – sprawdza zrozumienie subtelnych różnic w zachowaniu obiektów w niemal identycznych scenariuszach.
- CausalVQA – mierzy zdolność odpowiadania na pytania przyczynowo-skutkowe (np. „co by było gdyby…”).
Człowiek osiąga tu wynik 85–95%. V-JEPA 2 i inne modele AI? Znacznie mniej. To pokazuje, że mimo postępu, przed nami jeszcze długa droga do osiągnięcia pełnej intuicji fizycznej u maszyn.
Dlaczego to ważne?
V-JEPA 2 nie tylko rozpoznaje obiekty, ale uczy się zasad rządzących światem. To fundamentalna zmiana. Wcześniej AI musiała być karmiona milionami opisanych danych. Teraz wystarczy obserwacja. Oznacza to ogromny potencjał w obszarach takich jak:
- automatyka i robotyka,
- planowanie w nieznanych środowiskach,
- interakcja człowiek–maszyna bez żmudnego programowania.
Można to porównać do nauczyciela, który już nie musi pokazywać uczniowi każdego kroku. Wystarczy, że uczeń będzie obserwował otoczenie i sam nauczy się działać.
Meta zapowiada, że to dopiero początek. Plany obejmują rozwijanie hierarchicznych modeli – takich, które będą potrafiły planować działania w różnych horyzontach czasowych. Docelowo mają powstać systemy, które nie tylko rozumieją obraz i ruch, ale też dźwięk i dotyk.
Model V-JEPA 2 i towarzyszące mu benchmarki zostały udostępnione jako open source – zarówno na GitHubie, jak i Hugging Face. To ruch, który ma przyspieszyć rozwój całej branży i przybliżyć nas do Advanced Machine Intelligence (AMI) – poziomu AI, który będzie rzeczywiście użyteczny i autonomiczny.
Czy AI, które widzi, rozumie i planuje, stanie się nowym standardem? Obserwujmy uważnie – tym razem to nie tylko maszyna patrzy na świat, ale świat patrzy na nią.
Czytaj dalej: