W komunikacji z modelami językowymi uprzejmość nie zawsze popłaca, a to grubiański ton może prowadzić do uzyskania trafniejszych odpowiedzi.
Naukowcy Om Dobariya i Akhil Kumar w artykule „Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy” zgłoszonym jako „short paper” na konferencję ACL 2025, omawiają, jak sposób sformułowanie promptu wpływa na precyzję działań sztucznej inteligencji. Choć powszechnie uważa się, że sposób sformułowania zapytania ma kluczowe znaczenie dla pracy dużych modeli językowych (LLM), rola tonu i grzeczności była dotąd słabo zbadanym obszarem.
Uprzejmy czy grubianin?
Badacze przygotowali eksperyment, w oparciu o zestaw 50 pytań wielokrotnego wyboru z dziedzin takich jak matematyka, nauki przyrodnicze oraz historia. Każde z tych pytań zostało następnie przeredagowane na pięć różnych sposobów, różniących się poziomem uprzejmości:
- Bardzo uprzejmy,
- Uprzejmy,
- Neutralny,
- Grubiański (Rude),
- Bardzo grubiański.
Łącznie przetestowano 250 unikalnych promptów, wykorzystując do tego model ChatGPT 4o. Aby zapewnić rzetelność wyników, naukowcy zastosowali testy statystyczne (testy t dla prób zależnych) w celu oceny istotności różnic w wynikach.
Premia za chamstwo
Wyniki badania okazały się sprzeczne z intuicją badaczy. Nieuprzejme prompty osiągały lepsze rezultaty niż sformułowane grzecznie. Prompty „bardzo uprzejme” uzyskały najniższą dokładność na poziomie 80,8%, a „bardzo grubiańskie” osiągnęły najwyższą skuteczność, wynoszącą 84,8%.
Odkrycie to stoi także w sprzeczności z wcześniejszymi badaniami, które sugerowały, że bycie niemiłym dla sztucznej inteligencji prowadzi do pogorszenia jakości jej pracy. Autorzy publikacji sugerują, że nowsze modele LLM mogą reagować na zmiany w tonie konwersacji w inny sposób niż ich poprzednicy. Miłe konwersacje z AI być może przechodzą do historii.
Badanie Dobariya & Kumar (ACL/ArXiv 2025) pokazuje, że w eksperymencie na 50 pytaniach wielokrotnego wyboru bardziej nieuprzejme prompty dawały wyższą dokładność (najniżej 80,8% dla „bardzo uprzejmych”, najwyżej 84,8% dla „bardzo grubiańskich”); wyniki są potwierdzone testami t i szeroko komentowane w mediach.
CZYTAJ TEŻ: Reaktory atomowe z amerykańskich okrętów dadzą energię AI
CZYTAJ TEŻ: Zbyt dobra pamięć AI: potężny problem prawny dla budowniczych AI
Krótkie przypomnienie oryginalnych ustaleń
- Metoda: 50 bazowych pytań z matematyki, nauk przyrodniczych i historii, każde przepisane w 5 tonach (Very Polite → Very Rude), razem 250 promptów; testowano na ChatGPT‑4o; analiza przy użyciu testów t dla prób zależnych.
- Główne wyniki: Very Polite 80.8%, Very Rude 84.8% — różnice statystycznie istotne według autorów.
- Reakcja medialna i uczelniana: praca zyskała zasięg i komentarze (m.in. Penn State, artykuły prasowe).
Co mówią inne badania i możliwe wyjaśnienia
- Porównanie z wcześniejszymi pracami: wcześniejsze badania wskazywały mieszane efekty tonu; np. praca cross‑lingual „Should We Respect LLMs?” wykazała, że wpływ uprzejmości zależy od języka i modelu, a efekt nie jest jednolity.
- Teoretyczne mechanizmy: możliwe wyjaśnienia obejmują pragmatyczne sygnalizowanie intencji (ton jako dodatkowy sygnał kontekstowy), zmiany w sposobie formułowania instrukcji (krótsze, bez „proszę” → bardziej bezpośrednie polecenia) oraz wewnętrzne heurystyki modeli uczone na danych, gdzie bezpośredniość koreluje z instrukcjami zadaniowymi. Te hipotezy są dyskutowane w literaturze o „adversarial pragmatic perturbation” i badaniach nad odpornością na manipulacje tonu.
- Ograniczenia i ryzyka: mała próbka (50 pytań), jeden model (GPT‑4o), jednorazowy benchmark — wyniki mogą nie uogólniać się na zadania generatywne, dialog wielo‑tur, czy inne języki. Autorzy sami zalecają ostrożność przy interpretacji.
Szybkie porównanie wyników
| Ton promptu | Zgłoszona dokładność |
|---|---|
| Very Polite | 80.8% |
| Polite | (średnio niżej niż neutralny) |
| Neutral | (średnia referencyjna) |
| Rude | (wyższa niż polite/neutral) |
| Very Rude | 84.8% |

