Raport

    Firma AI Sesame wypuściła bazowy model, który napędza Mayę, imponująco realistycznego asystenta głosowego.

    Model, który ma rozmiar 1 miliarda parametrów („parametry” odnoszą się do poszczególnych komponentów modelu), jest objęty licencją Apache 2.0, co oznacza, że może być używany komercyjnie z niewielkimi ograniczeniami. Nazywany CSM-1B, model generuje „kody audio RVQ” z tekstu i wejść audio, zgodnie z opisem Sesame na platformie deweloperskiej AI Hugging Face.

    RVQ odnosi się do „resztkowej kwantyzacji wektorowej”, techniki kodowania audio na dyskretne tokeny zwane kodami. RVQ jest używane w wielu najnowszych technologiach audio AI, w tym w SoundStream Google i Encodec Meta.

    CSM-1B używa modelu z rodziny Llama Meta jako swojego rdzenia, połączonego z komponentem „dekodera” audio. Dostosowana wersja CSM napędza Mayę, mówi Sesame.

    „Model open-source tutaj to bazowy model generacyjny,” pisze Sesame w repozytoriach CSM-1B na Hugging Face i GitHub. „Jest zdolny do produkcji różnych głosów, ale nie został dostosowany do żadnego konkretnego głosu […] Model ma pewną zdolność do języków nieangielskich z powodu zanieczyszczenia danych w danych treningowych, ale prawdopodobnie nie poradzi sobie dobrze.”

    Nie jest jasne, jakie dane Sesame użyło do trenowania CSM-1B. Firma nie powiedziała.

    REKLAMA
    Raport

    Warto zauważyć, że model nie ma żadnych realnych zabezpieczeń. Sesame ma system honorowy i jedynie zachęca deweloperów i użytkowników, aby nie używali modelu do naśladowania głosu osoby bez jej zgody, tworzenia wprowadzających w błąd treści, takich jak fałszywe wiadomości, lub angażowania się w „szkodliwe” lub „złośliwe” działania.

    Wypróbowałem demo na Hugging Face, a klonowanie mojego głosu zajęło mniej niż minutę. Stamtąd łatwo było generować mowę według mojego uznania, w tym na kontrowersyjne tematy, takie jak wybory i rosyjska propaganda.

    Consumer Reports niedawno ostrzegł, że wiele popularnych narzędzi do klonowania głosu zasilanych przez AI na rynku nie ma „znaczących” zabezpieczeń, aby zapobiec oszustwom lub nadużyciom.

    Sesame, współzałożone przez współtwórcę Oculusa, Brendana Iribe, stało się wiralowe pod koniec lutego dzięki swojej technologii asystenta, która zbliża się do przekroczenia granicy doliny niesamowitości. Maya i inny asystent Sesame, Miles, biorą oddechy i mówią z dysfluencjami, i mogą być przerywani podczas mówienia, podobnie jak tryb głosowy OpenAI.

    Sesame zebrało nieujawnioną kwotę kapitału od Andreessen Horowitz, Spark Capital i Matrix Partners. Oprócz budowania technologii asystenta głosowego, firma twierdzi, że prototypuje okulary AI „zaprojektowane do noszenia przez cały dzień”, które będą wyposażone w jej własne modele.