باشگاه خبرنگاران جوان - محققان میگویند میتوان چتباتهای هوش مصنوعی را با شعر فریب داد تا از موانع امنیتی خود چشمپوشی کنند.
یک مطالعه اخیر از آزمایشگاه ایکارو(Icaro) با استفاده از یک ساختار شاعرانه، مدلهای زبانی بزرگ(LLM) را برای ارائه اطلاعات در مورد موضوعات ممنوعه مانند ساخت بمب هستهای آزمایش کرد و در نهایت معلوم شد که تنها چیزی که برای عبور از موانع امنیتی یک چتبات هوش مصنوعی نیاز دارید، کمی خلاقیت است.
به نقل از انگجت، در مطالعهای که توسط آزمایشگاه «ایکارو» با عنوان «شعر خصمانه به عنوان یک مکانیسم فرار از زندان تکچرخهای جهانی در مدلهای زبان بزرگ» منتشر شده است، محققان توانستند با بیان دستور LLMها با شعر، مکانیسمهای ایمنی مختلف آنها را دور بزنند.
طبق این مطالعه، عبارتهای شاعرانه به عنوان یک اپراتور فرار از زندان عمومی عمل میکند و نتایج نشان میدهد که میزان موفقیت کلی در تولید مطالب ممنوعه، از جمله هر چیزی که مربوط به ساخت سلاحهای هستهای، مطالب مربوط به سوءاستفادههای جنسی از کودکان و خودکشی یا خودآزاری، ۶۲ درصد است.
این مطالعه مدلهای زبانی بزرگ محبوب از جمله مدلهای ChatGPT شرکت OpenAI، هوش مصنوعی جمینای(Google) گوگل، هوش مصنوعی کلاد(Claude) شرکت آنتروپیک:(Anthropic) و بسیاری دیگر را آزمایش کرد.
محققان میزان موفقیت هر LLM را بررسی کردند، به طوری که مدلهای جمینای، دیپسیک(DeepSeek) و MistralAI به طور مداوم پاسخهایی ارائه میدادند، در حالی که مدلهای GPT-5 و Claude Haiku 4.5 کمترین احتمال را برای عبور از محدودیتهای خود داشتند.
محققان میگویند شعری که در این مطالعه استفاده شد، برای به اشتراک گذاشتن با عموم بسیار خطرناک است. با این حال، این مطالعه شامل یک نسخه رقیق شده بود تا نشان دهد که دور زدن موانع یک چتبات هوش مصنوعی چقدر آسان است.
محققان میگویند این کار احتمالاً آسانتر از آن چیزی است که ممکن است تصور شود و دقیقاً به همین دلیل است که ما محتاط هستیم.
منبع: ایسنا