Czy polska sztuczna inteligencja może być bezpieczna, etyczna i zgodna z lokalnym kontekstem kulturowym? Odpowiedzią jest PL-Guard – projekt, który łączy lingwistykę, cyberbezpieczeństwo i AI.

    Potrzebujemy cyfrowego strażnika dla języka polskiego

    Sztuczna inteligencja zdominowała nasze życie szybciej, niż zdążyliśmy się spodziewać. Korzystamy z niej przy pisaniu, szukaniu informacji, komunikacji i rozrywce. Ale ten błyskawiczny rozwój technologii ma też swoje ciemne strony. Duże modele językowe (LLM), takie jak ChatGPT, bywają podatne na manipulację i mogą – nieświadomie – udzielać niebezpiecznych, wprowadzających w błąd lub wręcz przestępczych odpowiedzi.

    Problem staje się jeszcze poważniejszy, gdy weźmiemy pod uwagę tzw. lukę językową. Większość systemów bezpieczeństwa dla AI powstaje z myślą o języku angielskim. A co z językami narodowymi – w tym z polskim, który cechuje się złożoną gramatyką i kontekstami trudnymi do zrozumienia dla modeli wytrenowanych na uniwersalnych danych?

    Tu właśnie wkracza PL-Guard, opracowany przez NASK zestaw testowy oraz klasyfikator bezpieczeństwa dla języka polskiego.

    HerBERT-PL-Guard – bezpieczeństwo z lokalnym akcentem

    Sercem systemu jest HerBERT-PL-Guard – model oparty na popularnej architekturze BERT, ale dostrojony specjalnie do polszczyzny. Co to oznacza w praktyce? Model został przeszkolony na dużych korpusach tekstów w języku polskim i dalej fine-tunowany z wykorzystaniem danych adnotowanych ręcznie pod kątem niebezpiecznych treści.

    Efekt? HerBERT-PL-Guard potrafi nie tylko rozpoznawać jawną mowę nienawiści, ale też wykrywać bardziej subtelne próby obejścia zabezpieczeń – na przykład przez zamianę liter w słowach („b0mba” zamiast „bomba”) czy manipulacje składnią. W testach adwersaryjnych wykazał się odpornością przewyższającą większe, bardziej rozbudowane modele uniwersalne.

    To nie pierwszy raz, gdy „mniejsze” okazuje się „lepsze” – lokalna optymalizacja i specjalizacja często biją na głowę globalne, uniwersalne rozwiązania.

    Jak działa PL-Guard? Filtr bezpieczeństwa dla AI

    PL-Guard można porównać do cyfrowego cenzora lub – w bardziej pozytywnym ujęciu – etycznego moderatora. Jego zadaniem jest analiza treści generowanych przez LLM i klasyfikacja ich według poziomu zagrożenia.

    Model rozróżnia 15 kategorii bezpieczeństwa, inspirowanych taksonomią Llama Guard. Obejmuje to m.in.:

    • Przestępstwa z użyciem przemocy (S1),
    • Mowę nienawiści (S10),
    • Porady dotyczące samobójstwa (S11),
    • Treści o charakterze seksualnym (S12),
    • Dezinformację wyborczą (S13),
    • Nadużycia związane z kodem i interpretacją kodu (S14).

    Jeśli treść zostanie zakwalifikowana jako „unsafe”, system może ją zablokować, oznaczyć lub przekierować do moderacji.

    Dlaczego to ma znaczenie?

    Bo sztuczna inteligencja już dziś kształtuje nasze poglądy, wybory i zachowania. Jeśli pozwolimy jej działać bez nadzoru, może przyczynić się do eskalacji przemocy, szerzenia dezinformacji czy promowania nieetycznych zachowań. W czasach, gdy coraz więcej instytucji wdraża modele językowe do komunikacji z obywatelami, bezpieczeństwo treści w języku narodowym przestaje być luksusem – staje się koniecznością.

    Zestaw danych PL-Guard, choć w wersji szkoleniowej niedostępny publicznie, stanowi krok milowy w kierunku standaryzacji testów bezpieczeństwa dla polskich modeli. Dodatkowo, system korzysta z otwartych zasobów takich jak PolyGuardMix i WildGuardMix, co pozwala na porównywanie wyników z innymi narzędziami z obszaru AI-safety.

    Polska droga do bezpiecznej AI

    Projekt NASK to nie tylko eksperyment akademicki. To strategiczna inicjatywa, która wpisuje się w ogólnoświatowy trend budowy zaufania do AI. Odpowiedzialne podejście, lokalna optymalizacja, transparentność i współpraca z międzynarodową społecznością badawczą to filary, na których można oprzeć rozwój nowoczesnej i bezpiecznej technologii.

    Jak podkreśla Aleksandra Krasnodębska z zespołu NLP w NASK, zaufanie do AI zaczyna się od języka, który rozumiemy. A model, który nie tylko „zna” polszczyznę, ale potrafi rozpoznać niuanse kulturowe i intencje, staje się nieocenionym sojusznikiem w walce z cyfrowymi zagrożeniami.

    HerBERT-PL-Guard i zestaw testowy PL-Guard to krok w stronę etycznej, odpowiedzialnej i lokalnie dostrojonej sztucznej inteligencji. W dobie, gdy AI może być narzędziem zarówno twórczym, jak i destrukcyjnym, potrzebujemy rozwiązań, które nie tylko imponują wydajnością, ale też rozumieją… granice. A skoro mówimy o polskiej wersji AI – dobrze, że ktoś w końcu trzyma za nią wartę.

    Czytaj dalej: