Google Lumiere. Nowy model AI tworzący realistyczne filmy

Google Lumiere to model tekst-na-wideo, który wykorzystuje nową technikę do tworzenia realistycznych filmów z krótkich tekstów. Firma właśnie pokazała to rozwiązanie.

Lumiere tworzy filmy, które prezentują realistyczny ruch i mogą nawet wykorzystywać obrazy i inne filmy jako materiały wejściowe, aby poprawić wyniki. Zaprezentowany w pracy pt. “Model dyfuzji przestrzenno-czasowej do generowania wideo”, Google Lumiere działa inaczej niż istniejące modele do generowania filmów. Generuje czas trwania filmu na raz, podczas gdy istniejące modele syntezują odległe kluczowe klatki, a następnie dokonują czasowej super-rozdzielczości.

Mówiąc wprost, Lumiere skupia się na ruchu obiektów na obrazie, podczas gdy poprzednie systemy składają film z kluczowych klatek, w których ruch już się odbył.

Model Google’a jest zdolny do generowania filmów składających się z 80 klatek. Dla porównania, Stable Video Diffusion od Stability osiąga 14 i 25 klatek. Warto natomiast podkreślić, że im więcej klatek, tym płynniejszy ruch filmu.

Google Lumiere lepszy niż konkurencja

Lumiere przewyższa konkurencyjne modele generacji wideo od firm takich jak Pika, Meta i Runway w różnych testach, w tym próbach zero-shot.

Naukowcy twierdzą także, że Lumiere produkuje najnowocześniejsze efekty jako rezultat swojego alternatywnego podejścia. Twierdzą, że wyjścia Lumiere mogą być używane w zadaniach tworzenia treści i edycji wideo, w tym w inpainting wideo i stylizowanej generacji (naśladowanie artystycznych stylów, które są pokazywane) poprzez użycie dostrojonych wag modelu tekst-na-obraz.

Aby osiągnąć swoje wyniki, Lumiere wykorzystuje nową architekturę, Space-Time U-Net. Generuje ona cały czas trwania filmu na raz, poprzez pojedyncze przejście w modelu.

Zespół Google’a napisał, że nowatorskie podejście poprawia spójność wyników:

Wykorzystując zarówno przestrzenne, jak i (co ważne) czasowe próbkowanie w dół i w górę oraz wykorzystując wytrenowany model dyfuzji tekst-na-obraz, nasz model uczy się bezpośrednio generować pełną prędkość klatek, niskiej rozdzielczości wideo, przetwarzając je w wielu skalach przestrzenno-czasowych
czytamy w pracy Google’a

Celem projektu Lumiere było stworzenie systemu umożliwiającego początkującym użytkownikom łatwiejsze tworzenie treści wideo.

W pracy technicznej Google’a pojawia się również informacja o tym, że istnieje ryzyko potencjalnego nadużycia. Eksperci ostrzegają, że modele takie jak Lumiere mogą być używane do tworzenia fałszywych lub szkodliwych treści. “Uważamy, że kluczowe jest rozwijanie i stosowanie narzędzi do wykrywania stronniczości i złośliwych przypadków użycia, aby zapewnić bezpieczne i sprawiedliwe wykorzystanie” — czytamy.

Google Lumiere. Na razie tylko pokazowo

Firma Google na razie nie udostępniła modelu publicznie. Możemy eksplorować różne przykłady generacji na stronie pokazowej na GitHubie.

Zobacz wideo dot. modelu Lumiere:

Premiera Lumiere następuje po VideoPoet, multimodalnym modelu wyprodukowanym przez Google, który tworzy filmy z tekstów, filmów i obrazów. Zaprezentowany w grudniu ubiegłego roku, VideoPoet wykorzystuje nieco inne rozwiązanie, sprawiając, że jest zdolny do tworzenia treści, na których nie był wcześniej szkolony.

Google opracował kilka modeli generacji wideo, w tym Phenaki i Imagen Video, a także planuje dodać opcję fimów AI do swoich narzędzi SynthID.

Różne style wideo - Google Lumiere — Różne style wideo – Google Lumiere

Prace Google’a nad wideo uzupełniają jego model bazowy Gemini, a w szczególności multimodalny punkt końcowy Pro Vision, który jest zdolny do obsługi obrazów i wideo jako wejścia oraz generowania tekstu jako wyjścia. ChatGPT nie może pochwalić się podobnymi możliwościami. Przynajmniej na razie.

Czytaj też:

ChatGPT w pracy biurowej – kiedy można go używać, a jakie sytuacje go wykluczają

Gdzie pojechać na majówkę? Określ swoje preferencje i zapytaj chatbota

Cyberlekcje 3.0 pozwolą zrozumieć i przekazywać wiedzę o zagrożeniach technologicznych w sieci

Czym jest silna sztuczna inteligencja?

Jak Polska radzi sobie z adaptacją generatywnej AI? Sprawdzamy w raporcie Generative AI Adoption

CERT Orange Polska podsumowuje 10 lat ochrony użytkowników przed zagrożeniami w sieci. Co zmieniło AI?

Czy AI zadomowiło się w polskich firmach? Sprawdzamy z raportem EFL

Chcemy kreować innowacje, budować suwerenność technologiczną a państwo ma pozostać w centrum rozwoju cyfryzacji – analiza PIE

Zakupy bez kliknięcia. Agentic AI zmieni e-commerce szybciej, niż myślisz

Windsurf chce przejąć kontrolę nad całym procesem inżynierii oprogramowania

Potencjał i aspiracje mamy. Polska może wziąć udział w wyścigu o AI

Szwajcarska firma IT sięga po prywatną chmurę dla AI

Obserwuje świat i wyciąga wnioski – nowy model AI – V-JEPA 2 od Meta

Czym jest vibe coding i co ma wspólnego z AI?

Google zachwyca swoim najnowszym modelem wideo Veo 3

Rola Edge Computing w AI. Nowe kierunki technologicznego rozwoju sztucznej inteligencji

Europa przyspiesza wyścig o suwerenną AI. Gigafabryki, miliardy i ostrzeżenie Nvidii

ChatGPT ma pamiętać wszystko na twój temat. To budzi grozę i ekscytację zarazem

Czy sztuczna inteligencja jest niebezpieczna? To zależy

Przyszłość robotyki w 2025 r. Od humanoidów po AI

Jak zyskać na sztucznej inteligencji czas (i pieniądze)?

Dla pracowników IT wynagrodzenie nie jest najważniejsze

Łukasz Kaiser: ekspert stojący za rozwojem machine learning z prestiżową nagrodą

AI w programach edukacyjnych Centrum Kształcenia Podyplomowego Uczelni Łazarskiego

Europa przyspiesza wyścig o suwerenną AI. Gigafabryki, miliardy i ostrzeżenie Nvidii

Zakupy bez kliknięcia. Agentic AI zmieni e-commerce szybciej, niż myślisz

Obserwuje świat i wyciąga wnioski – nowy model AI – V-JEPA 2 od Meta

ChatGPT w pracy biurowej – kiedy można go używać, a jakie sytuacje go wykluczają

Google Lumiere. Nowy model AI tworzący realistyczne filmy

Google Lumiere lepszy niż konkurencja

Google Lumiere. Na razie tylko pokazowo

Tinder wdraża obowiązkową weryfikację twarzy użytkownika w stanie Kalifornia. To początek nowej strategii

Dania pracuje nad zakazem rozpowszechniania deepfake’ów w sieci

Nvidia wraca na szczyt najlepiej wycenianych firm – triumf sztucznej inteligencji i precyzyjnej strategii

Google Lumiere. Nowy model AI tworzący realistyczne filmy

Google Lumiere lepszy niż konkurencja

Google Lumiere. Na razie tylko pokazowo

Polecane