Raport

    W świecie sztucznej inteligencji trwa wyścig zbrojeń, a Google ponownie udowadnia, że jest jednym z jego liderów. Podczas konferencji Google I/O 2025 zaprezentowano Veo 3 – najnowszą wersję generatora wideo wspieranego przez AI, który może zrewolucjonizować sposób, w jaki tworzymy filmy, narracje i treści wizualne.

    Dzięki nowatorskiemu połączeniu obrazu i dźwięku w czasie rzeczywistym oraz niezwykłej zgodności z podanymi opisami, Veo 3 otwiera nowy rozdział w rozwoju technologii generatywnych.

    Od statycznych klipów do pełnych narracji z dźwiękiem

    Do tej pory większość narzędzi AI generujących wideo miała jedną istotną wadę – brak dźwięku. Google wprowadza przełom w tej dziedzinie, oferując synchronizację obrazu i audio generowanego przez sztuczną inteligencję. Wystarczy tekstowy opis sceny, aby otrzymać nie tylko obraz, ale również spójne efekty dźwiękowe, ambientowe i dialogi postaci.

    Dzięki Veo 3 możemy wyobrazić sobie scenę w zatłoczonym metrze, a model zadba nie tylko o realistyczny obraz, ale też o tło dźwiękowe – szum rozmów, stukot pociągu, a nawet głosy postaci. To ogromny krok naprzód, szczególnie dla branż takich jak film, reklama, edukacja czy gaming.

    Pozostała część artykułu pod materiałem wideo:

    REKLAMA
    Raport

    Synchronizacja obrazu i dźwięku generowanego przez AI to jedno z największych wyzwań technicznych ostatnich lat. Wideo składa się z klatek, natomiast dźwięk jest ciągłą falą – połączenie tych dwóch światów wymaga modeli operujących na różnych skalach czasowych i fizycznych. Veo 3 potrafi dynamicznie uwzględniać takie zmienne jak prędkość poruszania się obiektu, jego materiał czy odległość od źródła dźwięku.

    W przeciwieństwie do narzędzi pokroju Gen-3 Alpha od Runway, które generują dźwięk po renderingu, Veo 3 generuje audio i wideo równocześnie, co znacząco zwiększa realizm tworzonych materiałów.

    Flow – kreatywna przestrzeń dla filmowców

    Równolegle z premierą Veo 3, Google zaprezentowało Flow – narzędzie do tworzenia filmów z pomocą AI. To środowisko pracy zaprojektowane z myślą o twórcach, oferujące dostęp do modeli takich jak Veo, Imagen (do generowania obrazów) i Gemini (asystujący w pisaniu promptów). Flow pozwala na:

    • pełną kontrolę kamery (ruch, kąt, ujęcie),
    • budowanie scen i płynnych przejść między nimi,
    • zarządzanie postaciami i obiektami (Asset Management),
    • synchronizację wyglądu postaci między ujęciami,
    • tworzenie dialogów i animacji ust (lip-sync),
    • dodawanie lub usuwanie obiektów z wideo.

    Użytkownicy mogą tworzyć własne „składniki” wizualne (postacie, scenerie, rekwizyty), a następnie używać ich w kolejnych scenach, zachowując ciągłość i spójność narracyjną.

    Dave Clark jest nagradzanym filmowcem, który skupia się na wykorzystywaniu nowych technologii w swojej twórczości filmowej. Wykorzystał sztuczną inteligencję do stworzenia dwóch swoich najnowszych filmów krótkometrażowych, „Battalion” i „NinjaPunk”. Jego najnowszy film krótkometrażowy „Freelancers” wykorzystuje sztuczną inteligencję Google i inne narzędzia, aby opowiedzieć historię dwóch oddalonych od siebie adoptowanych braci, którzy podążają podobnymi ścieżkami – blog.google

    Praktyczne zastosowania – od animacji po produkcję filmową

    Google aktywnie współpracuje z twórcami filmowymi, m.in. z Dave’em Clarkiem i Junie Lau, którzy wykorzystali Veo i Flow do realizacji krótkich filmów, eksperymentując z różnymi gatunkami i stylami. Ich prace pokazują, że narzędzia te nie są wyłącznie ciekawostką technologiczną, ale pełnoprawnym komponentem nowoczesnej produkcji filmowej.

    Dzięki funkcji Motion Master, użytkownicy mogą definiować ruchy obiektów, a Veo przekształca je w realistyczną animację. Dostępne są też opcje „first & last frame”, które umożliwiają płynne przejścia pomiędzy obrazami oraz „outpainting” – rozszerzanie wideo poza pierwotne ramy.

    Realizm, fizyka i styl w jednym

    Veo 3 to nie tylko dźwięk – to także najwyższa jakość wizualna w 4K, zgodność z zasadami fizyki oraz realistyczne odwzorowanie ruchu i interakcji. Model oferuje doskonałe trzymanie się promptów, co oznacza, że to, co opiszesz, zostanie bardzo wiernie odwzorowane na ekranie.

    Co ważne, użytkownicy mogą również wskazywać referencyjny styl graficzny, a Veo dostosuje się do estetyki: od malarskich ujęć inspirowanych japońskim Ukiyo-e po styl retro-futurystyczny czy origami 3D.

    Google nie zapomina o etyce i bezpieczeństwie. Wszystkie treści generowane przez Veo 3 są oznaczane technologią SynthID, co pozwala odróżnić je od materiałów rzeczywistych. Model podlega też testom pod kątem prywatności, praw autorskich i potencjalnych uprzedzeń.

    Nowa epoka narracji wizualnej

    Veo 3 w połączeniu z Flow to potężne narzędzia, które już teraz zmieniają zasady gry w świecie content creation. Dla branży filmowej, edukacyjnej, marketingowej i artystycznej oznacza to jedno – niespotykaną wcześniej swobodę twórczą i możliwość eksperymentowania bez konieczności angażowania kosztownych zespołów produkcyjnych.

    Czytaj dalej: