Testy sztucznej inteligencji stają się coraz bardziej skomplikowana ze względu na rosnące możliwości i złożoność narzędzi. Tradycyjne metody oceny, często oparte na wąskim zakresie badań, nie są już wystarczające do pełnego zrozumienia i oceny zdolności AI. W odpowiedzi na te wyzwania, badacze poszukują bardziej zaawansowanych i opartych na dowodach metod.
Efektywny test sztucznej inteligencji wyzwaniem dla badaczy
Jednym z takich podejść jest inicjatywa Beyond the Imitation Game (BIG-Bench), zainicjowana przez zespół badaczy z Google w 2022 roku. BIG-Bench zgromadziła naukowców z całego świata, aby stworzyć zestaw około 200 testów opartych na różnych dziedzinach, takich jak matematyka, lingwistyka i psychologia. Idea polega na zastosowaniu bardziej zróżnicowanego podejścia do benchmarkingu w stosunku do ludzkiej kognicji, co ma prowadzić do bogatszego i bardziej znaczącego wskaźnika zdolności AI do rozumowania czy zrozumienia przynajmniej w niektórych obszarach, nawet jeśli w innych obszarach pozostaje w tyle.
Wyzwaniem dla tego podejścia jest potencjalne zanieczyszczenie zestawów danych. Trudno jest zagwarantować, że AI nie zostało „wstępnie wyszkolone” do rozwiązania danego testu lub czegoś podobnego, zwłaszcza gdy LLM (Large Language Models) mogą mieć dostęp do całego uniwersum wiedzy naukowej i medycznej dostępnej w internecie. To sprawia, że ocena najbardziej zaawansowanych systemów AI, w tym GPT-4, staje się niezwykle trudna, ponieważ społeczność badawcza nie ma jasnego pojęcia, jakie dane były włączone lub wyłączone z procesu szkolenia.
Pozostała część artykułu pod materiałem wideo:
Zbadać możliwości AI nie jest prosto
Lucy Cheke, porównawcza psycholog, która bada AI na Uniwersytecie Cambridge w Wielkiej Brytanii, wyraża obawy, że wiele z testów nie jest w stanie właściwie ocenić sztucznej inteligencji. Testy zaprojektowane do oceny rozumowania i kognicji są zazwyczaj przeznaczone dla oceny dorosłych ludzi i mogą nie być odpowiednie do oceny szerszego zakresu przejawów inteligentnego zachowania.
Jako alternatywę dla konwencjonalnych benchmarków, niektórzy badacze, jak Ellie Pavlick, stosują podejście zorientowane na proces, które pozwala zrozumieć, jak algorytm doszedł do swojej odpowiedzi, zamiast oceniać samą odpowiedź w izolacji. To podejście może być szczególnie pomocne, gdy badacze nie mają jasnego widoku na szczegółowe działanie algorytmu AI.
Tajemnice firm nie pomagają w testach sztucznej inteligencji
Wyzwaniem pozostaje jednak brak przejrzystości w przypadku korporacyjnych modeli LLM, co utrudnia ocenę możliwości systemu AI. Niektórzy badacze zgłaszają, że obecne iteracje GPT-4 różnią się znacznie pod względem wydajności od poprzednich wersji, co czyni porównania typu „jabłka do jabłek” niemal niemożliwymi.
W odpowiedzi na te trudności, niektórzy naukowcy generują uproszczone wersje GPT-4, które replikują jego architekturę obliczeniową, ale z mniejszymi, starannie zdefiniowanymi zestawami danych szkoleniowych. Dzięki temu, jeśli badacze mają konkretną próbę testów do oceny swojego AI, mogą selektywnie dobierać i wykluczać dane szkoleniowe, które mogłyby dać algorytmowi „ściągę” i zakłócić testowanie.
Test Turinga, czyli historyczne podejście do badania inteligencji maszyn
Test Turinga, to tzw. test sztucznej inteligencji sformułowany około 70 lat temu przez genialnego matematyka Alana Turinga, stanowi jedno z fundamentalnych narzędzi do oceny zdolności myślenia maszyn. Podstawą testu jest dialog między tzw. sędziami a niewidzianym rozmówcą, który może być zarówno człowiekiem, jak i maszyną. Jeżeli sędziowie nie są w stanie odróżnić, po której stronie znajduje się maszyna, uznaje się to za dowód na jej zdolność do myślenia. Turing ustanowił kryterium sukcesu na poziomie oszukania 30% sędziów podczas pięciominutowej rozmowy, przewidując, że maszyny będą w stanie to osiągnąć około roku 2000.
Mimo to, od początku istnienia testu Turinga, pojawiały się głosy kwestionujące jego zasadność. Turing sam wskazywał na trzy główne argumenty przeciwko niemu: pytanie o świadomość, wątpliwości co do możliwości naśladowania ludzkiego układu nerwowego przez maszyny oraz argument teologiczny, mówiący o unikalnej pozycji człowieka jako jedynej istoty myślącej nadaną przez Boga.
Pierwsze próby przeprowadzenia testu z prostymi programami konwersacyjnymi, takimi jak Eliza czy Cleverbot, pokazały, że osiągnięcie tak wysokiego poziomu zaawansowania przez maszyny nie jest łatwe. Jednak w 2014 roku, algorytm o imieniu Eugene Goostman, symulujący nastolatka, zdołał przekonać 1/3 sędziów, że jest człowiekiem, co zostało uznane za przejście testu Turinga.
Współczesne dyskusje na temat testu Turinga podnoszą jednak nowe kwestie. Argumentuje się, że maszyna może być inteligentna, nawet nie posiadając ludzkiej zdolności prowadzenia rozmowy, oraz że możliwość symulacji ludzkich zachowań konwersacyjnych przez maszynę nie musi być dowodem na jej inteligencję. W dobie rozwoju sztucznej inteligencji, kiedy coraz częściej “rozmawiamy” z maszynami, test Turinga wciąż pozostaje istotny, rzucając światło na fundamentalne pytania dotyczące definicji inteligencji maszyn oraz inteligencji w ogóle.
Czytaj dalej: