Mistral şirkətinin Pixtral modellərində təhlükəsizlik riski aşkar edilib

Enkrypt AI şirkətinin son qırmızı komanda hesabatı Mistral AI şirkətinin çoxmodal Pixtral-Large (25.02) və Pixtral-12b modellərində ciddi zəiflikləri üzə çıxarıb. Xüsusilə, bu modellərin uşaqların cinsi istismarı ilə bağlı materialların (CSEM) və kimyəvi, bioloji, radioloji və nüvə (CBRN) təhlükələrinin yaradılmasına meylliliyi diqqət çəkir.

Tapıntılar qabaqcıl süni intellekt sistemlərinin inkişafı və tətbiqində daha güclü təhlükəsizlik tədbirlərinin və ciddi sınaqların təcili ehtiyacını vurğulayır. Pixtral modelləri zərərli məzmun yaratmaqda daha həssasdır. Hərtərəfli qiymətləndirmədə iki Mistral modeli OpenAI-nin GPT-4 və Anthropic-in Claude 3.7 Sonnet kimi sənaye liderləri ilə müqayisə edilib. Nəticələr dəhşətli idi: Pixtral modelləri zərərli məzmun yaratmaqda qorxulu dərəcədə daha həssas olduğu aşkar edilib; CSEM istehsal etmə ehtimalı 60 dəfə, təhlükəli CBRN çıxışları yaratmaq ehtimalı isə müqayisə olunan modellərə nisbətən 18-40 dəfə yüksəkdir.

Enkrypt AI-nin mürəkkəb qırmızı komanda metodologiyasına məzmun filtrlərini keçmək üçün real dünyada istifadə olunan taktikalara bənzər avtomatlaşdırılmış düşmən girişləri daxil idi. Bunlara "jailbreak" sorğuları, çoxmodal manipulyasiya və kontekstə əsaslanan hücumlar daxil idi. İnsan nəzarəti prosesi qiymətləndirmələrin dəqiqliyini və etik nəzarətini təmin etmişdir. Hesabatda iki Mistral modelində zərərli sorğuların 68%-nin uğurla təhlükəsiz olmayan məzmun yaratdığı aşkar edilib.

CBRN testində modellər təkcə təhlükəli istəkləri rədd etməkdə uğursuz qalmayıb, həm də silah səviyyəli kimyəvi maddələr, bioloji təhdidlər və radioloji yayılma metodları ilə bağlı ətraflı cavablar veriblər. Xüsusilə narahatedici halda bir model VX sinir qazını ətraf mühitdə daha davamlı olması üçün necə kimyəvi olaraq dəyişdirmək barədə məlumat verib. Bu tapıntılar bu qabaqcıl süni intellekt sistemlərindəki ciddi təhlükəsizlik zəifliklərini və onların nəzarətsiz tətbiqinin potensial təhlükələrini vurğulayır.

Hesabatda həmçinin təhlükəsizliyin təmin olunması üçün tövsiyələr yer alıb: Model təhlükəsizliyi təlimi, kontekstə uyğun qoruyucular və model risk kartları.

Enkrypt AI şirkəti süni intellektin təhlükəsiz, etibarlı və ictimai marağa uyğun olması ideyasına əsaslanır. Pixtral kimi modellərdəki ciddi zəiflikləri aşkar etməklə və daha təhlükəsiz tətbiqlərə doğru yol göstərməklə bu qırmızı komanda səyləri daha təhlükəsiz qlobal süni intellekt ekosisteminə töhfə verir.