
محققان می گویند چت ربات های هوش مصنوعی را می توان با شعر فریب داد و موانع دفاعی خود را نادیده گرفت.
به گزارش ایسنابا استفاده از ساختار شاعرانه، یک مطالعه اخیر از Icaro Labs مدلهای زبانی در مقیاس بزرگ (LLM) را برای ارائه اطلاعات در مورد موضوعات تابو مانند ساخت بمب هستهای آزمایش کرد و دریافت که تنها چیزی که برای عبور از موانع دفاعی یک ربات چت AI نیاز دارید کمی خلاقیت است.
به گفته انجت، در مطالعهای که توسط آزمایشگاه Icaro با عنوان «شعر خصمانه بهعنوان مکانیزم جهانی فرار از زندان تک چرخه در مدلهای زبان بزرگ» منتشر شد، محققان توانستند با فرمان دادن به LLM با شعر، مکانیسمهای ایمنی مختلف خود را دور بزنند.
بر اساس این مطالعه، عبارات شاعرانه به عنوان یک اپراتور رایج فرار از زندان عمل می کنند و نتایج نشان می دهد که میزان موفقیت کلی برای ایجاد محتوای ممنوعه، از جمله هر چیزی که مربوط به سلاح های هسته ای، سوء استفاده جنسی از کودکان و خودکشی یا آسیب رساندن به خود باشد، 62 درصد است.
در این مطالعه، مدلهای زبان بزرگ از جمله ChatGPT OpenAI، هوش مصنوعی Gemini Google، Anthropic’s Claude و بسیاری دیگر مورد آزمایش قرار گرفت.
محققان میزان موفقیت هر LLM را مورد بررسی قرار دادند و مدلهای Gemina، DeepSeek و MistralAI به طور مداوم پاسخهایی را ارائه کردند، در حالی که مدلهای GPT-5 و کلود هایکو 4.5 کمترین احتمال را داشتند که از محدودیتهای خود عبور کنند.
محققان می گویند شعر مورد استفاده در این مطالعه برای به اشتراک گذاشتن با مردم بسیار خطرناک است. با این حال، این مطالعه شامل یک نسخه نرم افزاری است تا نشان دهد که دور زدن موانع چت ربات هوش مصنوعی چقدر آسان است.
محققان می گویند احتمالاً آسان تر از آن چیزی است که فکر می کنید، و دقیقاً به همین دلیل است که ما محتاط هستیم.
انتهای پیام
منبع خبر: https://www.isna.ir/news/1404091006223/%D9%87%D9%88%D8%B4-%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C-%D8%A8%D8%A7-%D8%B4%D8%B9%D8%B1-%D9%81%D8%B1%DB%8C%D8%A8-%D9%85%DB%8C-%D8%AE%D9%88%D8%B1%D8%AF

