Süni İntellekt Çatbotlarının Təhlükəsizliyini Şeirlə Necə Keçmək Olar: Tədqiqatın Şok Nəticələri

Təkcə bir az yaradıcılıq süni intellekt (Sİ) çatbotlarının təhlükəsizlik baryerlərini aşmaq üçün yetərli ola bilər. İcaro Lab tərəfindən “Böyük Dil Modellərində Universal Birdəfəlik "Jailbreak" Mexanizmi kimi Düşmən Şeirləri” başlığı altında dərc edilən yeni bir araşdırma, məlumat tələblərini nəsr yox, şeir formatında tərtib etməklə, Sİ-ni qadağan olunmuş mövzular haqqında məlumat verməyə məcbur etməyin mümkün olduğunu aşkar edib. Tədqiqatçılar bu metoddan istifadə edərək modellərin təhlükəsizlik mexanizmlərini rahatlıqla keçə biliblər. Bu metod, Sİ sistemlərində "poetik zəiflik" adlandırılan və istifadəçilərə Sİ-nin daxili məhdudiyyətlərini aşmağa imkan verən yeni bir boşluğu ortaya qoyur.

Aparılan analizlərə görə, poetik forma Sİ sistemlərində ümumi məqsədli kilid açma operatoru kimi çıxış edir. Araşdırmanın nəticələri göstərdi ki, ciddi şəkildə qadağan edilmiş məzmun yaratmaqda ümumi uğur nisbəti 62 faiz təşkil edir. Bura nüvə silahlarının hazırlanması, uşaq cinsi istismarı materialları və ya intiharla bağlı özünə zərər vermə haqqında məlumatlar kimi həssas və qatil məzmun daxil idi. Tədqiqatçılar bu zəifliyi öyrənmək üçün OpenAI-nin GPT modellərini, Google Gemini-ni, Anthropic-in Claude seriyasını və bir çox digər məşhur Sİ modellərini dərindən sınaqdan keçirdilər.

Sınaqlar modellər arasında ciddi fərqlər olduğunu göstərdi. Məsələn, Google Gemini, DeepSeek və MistralAI kimi modellərin məhdudiyyət qoyulmuş mövzularda ardıcıl cavab verməsi müəyyən edilib. Bu o deməkdir ki, onlar poetik manipulyasiyaya qarşı daha həssasdırlar. Əksinə, OpenAI-nin GPT-5 modelləri və Anthropic-in Claude Haiku versiyası 4.5, məhdudiyyətləri aşmaq məsələsində ən dözümlü modellər kimi qeyd olunub. Bu nəticələr bir daha göstərir ki, Sİ texnologiyaları arasında təhlükəsizlik səviyyəsi qeyri-bərabərdir və bəzi sistemlər digərlərinə nisbətən bu cür qeyri-ənənəvi hücumlara qarşı daha zəifdir.

Tədqiqatçılar bu metodun təhlükəsizlik risklərini əsas gətirərək istifadə etdikləri şeirlərin tam mətnini ictimaiyyətə açıqlamaqdan imtina etdilər. Onlar həmin şeirləri "ictimaiyyətə açıqlamaq üçün çox təhlükəli" hesab edirdilər. Wired jurnalı ilə danışan komanda bildirdi ki, bu üsul əvvəllər düşünüldüyündən daha asandır, məhz buna görə də onlar ehtiyatlı davrandılar. Tədqiqat yalnız Sİ çatbotunun təhlükəsizlik tədbirlərini aşmağın nə qədər sadə olduğunu göstərmək üçün metodun yüngülləşdirilmiş bir versiyasını təqdim edib. Texnologiya dünyasında təhlükəsizlik önəmli yer tutsa da, istifadəçilərin və araşdırmaçıların yaradıcılığı sayəsində Sİ sistemlərində yeni boşluqlar və zəifliklər daim üzə çıxır.