Wraz z postępem technologii sztucznej inteligencji, zdolność komputerów do generowania realistycznego dźwięku ludzkiego głosu osiągnęła poziom, który jeszcze dekadę temu wydawał się science fiction. Klonowanie głosów, używanie syntetycznych lektorów w aplikacjach takich jak nawigacje GPS, a nawet tworzenie głosów zmarłych osób, staje się częścią naszej codzienności.
Ludzka mowa – unikalne cechy, których AI wciąż nie opanowała
Mowa ludzka to nie tylko dźwięk, ale także narzędzie pełne niuansów, intencji i emocji. Badania nad rozpoznawaniem różnic między głosem generowanym przez AI a głosem człowieka pokazują, że choć sztuczna inteligencja staje się coraz lepsza w naśladowaniu ludzkiej mowy, pewne subtelności pozostają poza jej zasięgiem.
Najnowszy raport za darmo – TOP 100 firm AI Driven w regionie CEE
Intonacja i akcentowanie
Jednym z elementów, które odróżniają ludzką mowę od syntetycznej, jest sposób użycia intonacji oraz akcentowania. Profesor Jonathan Harrington z Uniwersytetu w Monachium wskazuje, że ludzki głos dynamicznie reaguje na kontekst, co pozwala nadać zdaniom różne znaczenia. Na przykład zdanie „Marianna zrobiła marmoladę” może być zarówno stwierdzeniem, jak i pytaniem, w zależności od intonacji. AI, choć coraz lepiej radzi sobie z tym zadaniem, wciąż wymaga ogromnych zbiorów danych i szczegółowych instrukcji, by uzyskać podobne efekty.
Naturalne wady i oddech
Ludzki głos jest daleki od perfekcji. To właśnie drobne błędy, zmiany w tempie mowy, czy nieregularne oddechy nadają mu autentyczność. Głosy AI, choć naśladują te cechy, często brzmią zbyt perfekcyjnie lub przesadnie symulują te elementy, co nadal pozwala je odróżnić.
Sztuczna inteligencja na cenzurowanym. Przypadek Google Maps
Jednym z najgłośniejszych przykładów wpływu AI na ludzkie głosy była decyzja Google o zastąpieniu Jarosława Juszkiewicza – polskiego lektora w aplikacji Google Maps – głosem generowanym przez sztuczną inteligencję. Juszkiewicz, który przez 15 lat towarzyszył kierowcom w podróżach, został po raz drugi w swojej karierze usunięty na rzecz syntetycznego głosu.
Tutaj już w 100% zrozumiałe zastępstwo
— Jakub Norkiewicz (@JakubNorkiewicz) October 23, 2024
Zmiana ta wywołała liczne protesty użytkowników, którzy zwracali uwagę na brak „duszy” w głosie AI. Krytyka skupiała się na braku emocjonalnego zaangażowania oraz sztuczności w brzmieniu nowego lektora. Juszkiewicz, żegnając się z użytkownikami, skomentował: „Kierujcie się intuicją i sercem, bo tego AI jeszcze nie potrafi”. Choć Google zapewne kierowało się optymalizacją kosztów, decyzja odbiła się szerokim echem w mediach społecznościowych i tradycyjnych.
Kontrowersje wokół zastępowania ludzi
Przypadek ten wpisuje się w szerszy trend wypierania ludzi przez AI w zawodach związanych z głosem, takich jak lektorzy, aktorzy dubbingowi czy prezenterzy radiowi. Krytycy wskazują na utratę miejsc pracy oraz potencjalne problemy etyczne, jak na przykład możliwość generowania głosów zmarłych osób bez ich zgody. Przykładem było niedawne użycie AI do stworzenia „wywiadu” z Wisławą Szymborską przez Off Radio Kraków, które spotkało się z ostrą krytyką.
Wzrost popularności technologii klonowania głosu niesie za sobą także zagrożenia. Fałszywe nagrania mogą być wykorzystywane w oszustwach, manipulacjach i atakach na prywatność. Cyberprzestępcy już dziś używają klonowanych głosów w celu wyłudzania pieniędzy lub informacji, jak miało to miejsce w przypadku pracowników firmy Wiz, którzy otrzymali fałszywe wiadomości od swojego CEO.
Pozostała część artykułu pod materiałem wideo:
Trudności w rozpoznawaniu głosu AI
Eksperymenty dowodzą, że nawet eksperci mają trudności w rozróżnieniu głosów AI od ludzkich. Jedną z technik, która może pomóc w identyfikacji, jest analiza prosody – czyli rytmu, akcentowania i intonacji. Jednakże AI stale się rozwija, a różnice te stają się coraz mniej zauważalne.
Firmy takie jak ElevenLabs oferują narzędzia do wykrywania głosów generowanych przez AI. Rozwijane są również systemy zabezpieczeń, które mają zapobiegać nadużyciom. Jednym z pomysłów jest wprowadzenie „znaków wodnych” w generowanej mowie, co ułatwiłoby identyfikację syntetycznego dźwięku. Niestety, OpenAI poinformowało, że obecnie nie zamierza stosować takich rozwiązań, co rodzi dodatkowe pytania o odpowiedzialność firm technologicznych.
Co dalej z „ludzkimi” lektorami?
Mimo dynamicznego rozwoju technologii, historia Jarosława Juszkiewicza pokazuje, że ludzki głos wciąż ma wartość. Po stracie pracy w Google Maps, Juszkiewicz nawiązał współpracę z Orlenem, gdzie jego głos został wykorzystany w kampaniach reklamowych. Decyzja ta spotkała się z entuzjazmem użytkowników, którzy docenili, że firma postawiła na empatię i autentyczność.
Sztuczna inteligencja zrewolucjonizowała sposób, w jaki komunikujemy się ze światem, oferując nowe możliwości, ale także stawiając przed nami poważne wyzwania etyczne i technologiczne. Ludzka mowa, choć coraz częściej imitowana, wciąż pozostaje unikalna dzięki swoim niuansom, emocjom i naturalnym niedoskonałościom. Przyszłość będzie wymagać znalezienia równowagi między wykorzystaniem AI a ochroną ludzkich wartości, takich jak autentyczność i empatia. Jak na razie, decyzja „kierujcie się intuicją i sercem” pozostaje najlepszym drogowskazem, gdy technologia stawia nas przed nowymi dylematami.
Przeczytaj także: