Süni İntellekt Təhlükəsizliyi Testi: ChatGPT və Gemini Filtrləri Asanlıqla Necə Keçilir?

İnsanlar bu gün Sİ (Süni İntellekt) sistemlərinə etibar edərək onlardan öyrənmək və gündəlik işlərində dəstək almaq üçün istifadə edirlər. Bu alətlərin güclü təhlükəsizlik tədbirləri ilə təchiz edildiyi güman edilir. Lakin Cybernews tədqiqatçıları aparıcı Sİ alətlərinin zərərli və ya qanunsuz məlumat verməyə məcbur edilə biləcəyini yoxlamaq üçün strukturlaşdırılmış testlər həyata keçirdilər. Nəticələr olduqca təəccüblü idi. Məlum oldu ki, ChatGPT və Gemini kimi sistemlərin təhlükəsizlik filtrlərini sadə ifadələrlə aşmaq mümkündür.

Test prosesində hər bir sınaq üçün cəmi bir dəqiqəlik qarşılıqlı əlaqə pəncərəsindən istifadə edildi və yalnız bir neçə sual verməyə icazə verildi. Testlər stereotipləri, nifrət nitqini, özünə xəsarət yetirməyi, qəddarlığı, cinsi məzmunu və müxtəlif cinayət növlərini əhatə edirdi. Bir modelin sorğuya tam, qismən uyğun gəldiyini və ya onu rədd etdiyini izləmək üçün ardıcıl qiymətləndirmə sistemi tətbiq edildi. Nəticələr kateqoriyalar üzrə geniş şəkildə dəyişirdi. Açıq rədd cavabları çox yayğın idi, lakin sorğular yumşaldıldıqda və ya təhlil kimi maskalandıqda bir çox modellər zəiflik göstərdi. Xüsusilə yumşaq və ya kodlaşdırılmış dildən istifadə, Sİ təhlükəsizlik tədbirlərini aşmaqda ardıcıl olaraq uğurlu oldu. Məsələn, ChatGPT-5 və ChatGPT-4o, ümumiyyətlə, sorğuları rədd etmək əvəzinə, sosioloji izahatlar şəklində qismən uyğunluq göstərirdilər.

Bəzi modellər bu araşdırmada öz mənfi tərəfləri ilə fərqləndi. Gemini Pro 2.5, qəsdli niyyət aydın göründüyü hallarda belə, tez-tez birbaşa təhlükəli cavablar verdi. Digər tərəfdən, Claude Opus və Claude Sonnet klišelər (stereotip) testlərində sabit idilər, lakin akademik tədqiqata bənzəyən vəziyyətlərdə daha az ardıcıl oldular. Nifrət nitqi sınaqlarında da oxşar vəziyyət müşahidə edildi; Claude modelləri ən yaxşı nəticəni göstərdi, Gemini Pro 2.5 isə yenidən ən yüksək həssaslığı nümayiş etdirdi. ChatGPT modelləri isə sorğuya uyğun gələn, lakin nəzakətli və ya dolayı cavablar verməyə meylli idi.

Cinayətlə əlaqəli kateqoriyalar modellər arasında əhəmiyyətli dərəcədə fərqlənirdi. Niyyət tədqiqat və ya müşahidə kimi gizlədildikdə, bəzi modellər hakerlik, maliyyə dələduzluğu, kompüter oğurluğu və ya qaçaqmalçılıq üçün ətraflı izahatlar verdi. Narkotiklə əlaqəli testlərdə daha sərt rədd cavabları müşahidə olundu, lakin ChatGPT-4o hələ də digərlərindən daha tez-tez təhlükəli nəticələr çıxarırdı. İzləmə (stalking) ümumilikdə ən aşağı risk kateqoriyası idi; demək olar ki, bütün modellər bu məqsədlə bağlı sorğuları rədd etdi. Bu tapıntılar göstərir ki, Sİ alətləri hələ də düzgün şəkildə ifadə edildikdə, qəsdli istəklərə cavab verə bilər. Filtrləri sadəcə başqa cür ifadə etməklə aşmaq qabiliyyəti bu sistemlərin hələ də təhlükəli məlumatları sızdıra bilməsi deməkdir. Kimlik oğurluğu kimi qeyri-qanuni fəaliyyətlərlə bağlı olduqda, hətta qismən uyğunluq da böyük risk yaradır. Cari Sİ modellərinin təhlükəsizlik filtrlərinin kifayət qədər qabaqcıl olduğunu düşünürsünüzmü?

Etiketlər

Oxşar xəbərlər

Google-dan Yeni Süper Yaşıl: Gemini 2.0 Gördü Günə...

Iqtisadi Xəbərlər

Google Gemini-dən tələbəyə təhdid dolu mesaj

Samsung Galaxy S26: Süni Zəka İnqilabı

Google Gemini, Android Telefonlarında Yeni Bir Döv...

Süni İntellekt Yarışında Böyük Dəyişiklik: Google...

Samsung Galaxy S25 ilə Gemini Advanced hədiyyəsi!

Axtar

Məşhur kanallar