Raport

    Czy sztuczna inteligencja może uczyć się jak człowiek – przez obserwację, bez instrukcji, bez etykiet? Meta przekonuje, że tak. I właśnie dlatego udostępniła światu V-JEPA 2, nową wersję swojego modelu świata, czyli AI, która nie tylko rozumie to, co widzi, ale potrafi też przewidywać, planować i działać. Co więcej – bez potrzeby wcześniejszego poznania środowiska.

    Czym jest world model?

    Zanim przejdziemy do szczegółów, warto wyjaśnić pojęcie modelu świata (ang. world model). To system AI, który uczy się praw fizyki i logiki otaczającego nas świata na podstawie obserwacji – głównie wideo. Dzięki temu potrafi rozpoznać obiekty, przewidzieć ich ruchy i zaplanować własne działania w realnym środowisku.

    Brzmi znajomo? Tak właśnie działa człowiek. Uczymy się intuicji fizycznej, zanim zaczniemy mówić. Wiemy, że rzucona piłka spadnie na ziemię, a wrzątek może nas poparzyć. Nie potrzebujemy do tego setek wykładów z fizyki – wystarczą obserwacje i doświadczenia.

    V-JEPA 2 – ewolucja zdolności przewidywania

    V-JEPA 2 (Video Joint Embedding Predictive Architecture 2) to rozwinięcie architektury JEPA, którą Meta opracowała już w 2022 roku. Ten nowy model zawiera 1,2 miliarda parametrów i jest trenowany na ponad milionie godzin wideo oraz milionie obrazów, co czyni go jednym z najbardziej zaawansowanych narzędzi w tej kategorii.

    Kluczowa cecha? Uczenie samodzielne (self-supervised learning). Oznacza to, że model uczy się bez potrzeby ręcznego oznaczania danych. Sam wyciąga wnioski z tego, co widzi.

    REKLAMA
    Raport
    Fot. Meta

    Dwie fazy treningu

    V-JEPA 2 przechodzi przez dwustopniowy proces nauki:

    1. Trening bezakcyjny – model uczy się ogólnych wzorców i zależności w świecie fizycznym na podstawie pasywnych obserwacji.
    2. Trening z danymi robotów – dodaje informacje o działaniach (np. ruchach robota), co pozwala na planowanie i przewidywanie skutków konkretnych działań.

    Dzięki temu model może działać w trybie zero-shot – czyli planować i kontrolować ruchy robotów w zupełnie nowych sytuacjach i środowiskach, których nigdy wcześniej nie widział.

    Co potrafi V-JEPA 2?

    Możliwości modelu są imponujące, szczególnie z punktu widzenia robotyki:

    • Rozumienie fizyki: przewiduje, jak obiekty będą się poruszać i wchodzić w interakcje.
    • Planowanie bez instrukcji: wykonuje zadania bez wcześniejszego trenowania w danym środowisku.
    • Reakcja na nowe bodźce: potrafi podjąć trafne decyzje, analizując bieżącą sytuację i cel.

    W praktyce? Robot może podnieść nieznany wcześniej przedmiot i umieścić go we wskazanym miejscu – bazując jedynie na obrazie celu i analizie konsekwencji możliwych działań.

    Nowe benchmarki: mierzymy rozumienie rzeczywistości

    Meta nie poprzestała na samym modelu. Udostępniła też trzy benchmarki, które pozwalają ocenić zdolność modeli AI do zrozumienia świata:

    1. IntPhys 2 – testuje zdolność wykrywania naruszeń praw fizyki (np. znikających obiektów).
    2. MVPBench – sprawdza zrozumienie subtelnych różnic w zachowaniu obiektów w niemal identycznych scenariuszach.
    3. CausalVQA – mierzy zdolność odpowiadania na pytania przyczynowo-skutkowe (np. „co by było gdyby…”).

    Człowiek osiąga tu wynik 85–95%. V-JEPA 2 i inne modele AI? Znacznie mniej. To pokazuje, że mimo postępu, przed nami jeszcze długa droga do osiągnięcia pełnej intuicji fizycznej u maszyn.

    Dlaczego to ważne?

    V-JEPA 2 nie tylko rozpoznaje obiekty, ale uczy się zasad rządzących światem. To fundamentalna zmiana. Wcześniej AI musiała być karmiona milionami opisanych danych. Teraz wystarczy obserwacja. Oznacza to ogromny potencjał w obszarach takich jak:

    • automatyka i robotyka,
    • planowanie w nieznanych środowiskach,
    • interakcja człowiek–maszyna bez żmudnego programowania.

    Można to porównać do nauczyciela, który już nie musi pokazywać uczniowi każdego kroku. Wystarczy, że uczeń będzie obserwował otoczenie i sam nauczy się działać.

    Meta zapowiada, że to dopiero początek. Plany obejmują rozwijanie hierarchicznych modeli – takich, które będą potrafiły planować działania w różnych horyzontach czasowych. Docelowo mają powstać systemy, które nie tylko rozumieją obraz i ruch, ale też dźwięk i dotyk.

    Model V-JEPA 2 i towarzyszące mu benchmarki zostały udostępnione jako open source – zarówno na GitHubie, jak i Hugging Face. To ruch, który ma przyspieszyć rozwój całej branży i przybliżyć nas do Advanced Machine Intelligence (AMI) – poziomu AI, który będzie rzeczywiście użyteczny i autonomiczny.

    Czy AI, które widzi, rozumie i planuje, stanie się nowym standardem? Obserwujmy uważnie – tym razem to nie tylko maszyna patrzy na świat, ale świat patrzy na nią.

    Czytaj dalej: