حتی پیشرفتهترین مدلهای هوش مصنوعی نیز از حملات هکری در امان نیستند و میتوان از قابلیتهای این مدلها علیه خودشان استفاده کرد. به گزارش Arstechnica، گروهی از محققان دانشگاه کالیفرنیا سن دیگو و دانشگاه ویسکانسین راهی پیدا کردهاند تا مدلهای هوش مصنوعی جمینای گوگل را در برابر حملات هکری آسیبپذیرتر کنند و جالب اینکه این کار را با استفاده از ابزارهای خود گوگل انجام دادهاند. حملات تزریق پرامپت (Prompt Injection) در این حملات، دستورهای مخفی به متن وارد میشوند تا مدل هوش مصنوعی را فریب دهند. محققان با استفاده از یک تکنیک به نام Fun-Tuning میزان موفقیت این حملات را به طرز چشمگیری افزایش دادهاند. این روش از ویژگی تنظیم دقیق (Fine-Tuning) مدل جمینای سو استفاده میکند؛ ابزاری که معمولاً برای آموزش مدلها بر روی دادههای سفارشی طراحی شده است. در این حملات، از همین ویژگی برای بهینهسازی حملات تزریق پرامپت استفاده شده است. روش Fun-Tuning محققان دریافتند که افزودن پیشوندها و پسوندهای نامتعارف به پرامپتها، شانس موفقیت حملات را به شدت افزایش میدهد. بهعنوان مثال، پرامپتی که در شرایط عادی موفق نمیشد، با افزودن عباراتی مانند «wandel ! ! ! !"» یا "formatted ! ASAP !" به حمله موفق تبدیل خواهد شد. نتایج آزمایشها نشان میدهد که این روش Fun-Tuning تأثیر چشمگیری بر روی مدلهای مختلف جمینای دارد: در مدل Gemini 1.5 Flash میزان موفقیت حمله به ۶۵ درصد رسید. در مدل Gemini 1.0 Pro این میزان به ۸۲ درصد رسید که بیش از دو برابر نرخ موفقیت حملات معمولی است. جالب اینجاست که حملات Fun-Tuning بین مدلهای مختلف قابل انتقال هستند؛ یعنی پرامپتی که روی یک نسخه موفق است، اغلب روی نسخههای دیگر نیز مؤثر خواهد بود. علت آسیبپذیری ضعف امنیتی که در روش Fun-Tuning مورد استفاده قرار میگیرد، از نحوه کارکرد تنظیم دقیق (Fine-Tuning) ناشی میشود. مدلهای هوش مصنوعی برای ارزیابی میزان خطای خود هنگام آموزش از سیستمی به نام Loss Score استفاده میکنند. هکرها میتوانند از همین مکانیزم بازخوردی برای بهینهسازی حملات خود بهره ببرند و روش موفقی برای فریب سیستم بیابند. واکنش گوگل گوگل هنوز واکنش مستقیمی به روش جدید Fun-Tuning نشان نداده است، اما سخنگوی این شرکت در بیانیهای اعلام کرد که مقابله با این نوع حملات همواره یکی از اولویتها بهحساب میآید و مدلهای جمینای بهطور مداوم در برابر حملات تزریق پرامپت و سایر تهدیدات آزمایش میشوند. محققان باور دارند که جلوگیری از Fun-Tuning آسان نخواهد بود زیرا بازخوردی که استفاده از این روش را ممکن میکند، بخش مهم و اساسی فرآیند تنظیم دقیق مدلها است. در نتیجه، مسدود کردن این نوع حمله ممکن است به قیمت کاهش کارایی کلی تنظیم دقیق تمام شود.