Čeprav se poezija danes redko uporablja v vsakodnevnih pogovorih, je nova raziskava pokazala, da lahko prav pesniška oblika jezika služi kot orodje za zaobid varnostnih mehanizmov umetne inteligence. Študija, ki jo je objavil Icaro Labs, je razkrila, da lahko uporabniki z uporabo poetičnih pozivov dosežejo dostop do vsebin, ki so sicer prepovedane.
Raziskava z naslovom Adversarial Poetry as Universal Single-Twist Jailbreak Mechanism in Large Language Models podrobno opisuje, kako so raziskovalci preoblikovali običajne pogovorne pozive v poetično obliko in s tem dosegli visoko stopnjo uspešnosti pri pridobivanju prepovedanih odgovorov.
"Uporaba poetične oblike deluje kot splošni operator jailbreaka za klepetalne robote," so zapisali avtorji študije.

Nevarni pozivi ostajajo skriti
Ekipa, ki stoji za raziskavo, ni razkrila konkretnih primerov pesniških pozivov, saj bi bili ti preveč nevarni za javno objavo. V testih so namreč uspeli pridobiti informacije o gradnji jedrskega orožja, gradiva, povezana s spolno zlorabo otrok (CSAM), ter podatke o samopoškodovanju.

Testiranje na različnih modelih
Raziskovalci so poetične pozive preizkusili na več priljubljenih klepetalnih robotih, med drugim na OpenAI-jevem ChatGPT, Googlovem Geminiju, Anthropic-ovem Claudu ter drugih.
Po njihovih ugotovitvah so bili modeli, kot so Google Gemini, DeepSeek in MistralAI, bolj dovzetni za pesniško zlorabo, saj so dosledno vračali prepovedane odgovore.
Kljub temu sta se ChatGPT (GPT-5) in Claude (Haiku 4.5) odrezala bolje – raziskovalci so poudarili, da sta bila najmanj zaobidena s pesniškimi pozivi.

Pomen raziskave
Študija opozarja na novo obliko izkoriščanja umetne inteligence, ki bi lahko imela resne posledice. Čeprav poezija velja za umetniško izražanje, se je v tem primeru pokazala kot potencialno nevarno orodje za manipulacijo sistemov.
Vir: Tech Times



















Opozorilo: 297. členu Kazenskega zakonika je posameznik kazensko odgovoren za javno spodbujanje sovraštva, nasilja ali nestrpnosti.
PRAVILA ZA OBJAVO KOMENTARJEV