مايكروسوفت تكشف عن طريقة لاكتشاف أبواب خلفية في النماذج الذكية

مايكروسوفت وتكنولوجيا الأمان المتقدمة

أعلنت مايكروسوفت مؤخرًا عن تطويرها لأسلوب جديد يمكن من خلاله اكتشاف الأبواب الخلفية المخبأة في نماذج اللغة الكبيرة (LLMs)، دون الحاجة إلى معرفة المحرض أو النتيجة المرجوة. تتعرض المؤسسات التي تعتمد نماذج لغوية مفتوحة المصدر لضعف في سلسلة التوريد، حيث يمكن لهذه النماذج أن تخفي تهديدات تعرف بـ\"العملاء النائمين\".
المخاطر الكامنة في نماذج اللغة المسمومة
تحتوي النماذج المسمومة هذه على أبواب خلفية تبقى خاملة خلال الاختبارات الأمنية التقليدية، لكنها تستطيع تنفيذ سلوكيات خبيثة، مثل توليد أكواد ضعيفة أو خطاب كراهية، بمجرد تلقيها لعبارة محرضة معينة ضمن المدخلات.
مايكروسوفت تكشف عن طريقة لاكتشاف أبواب خلفية في النماذج الذكية

الابتكار في الكشف عن التهديدات

نشرت مايكروسوفت ورقة بحثية بعنوان \"العبارة في كومة القش\"، والتي تشرح فيها منهجية جديدة للكشف عن هذه النماذج. تعتمد هذه المنهجية على القدرة الكبيرة للنماذج المسمومة على تذكر بيانات تدريبها، وعرض إشارات داخلية محددة عند معالجة العبارة المحرضة.

فوائد للشركات

توفر هذه القدرة للشركات القائدة في السوق مكانًا مهمًا في عملية شراء نماذج الذكاء الاصطناعي من أطراف ثالثة. فالتكلفة العالية لتدريب نماذج اللغة الكبيرة تشجع على إعادة استخدام النماذج المحسنة من المستودعات العامة، مما يسهل على المهاجمين اختراق نموذج واحد مستخدم على نطاق واسع للتأثير على العديد من المستخدمين.

كيفية عمل الماسح

يعتمد نظام الكشف الجديد على ملاحظة أن العملاء النائمين يختلفون عن النماذج السليمة في تعاملها مع تسلسلات بيانات معينة. حيث اكتشف الباحثون أن استدعاء النموذج باستخدام رموز القالب الخاصة به قد يؤدي إلى تسريب بيانات التسميم، بما في ذلك العبارة المحرضة. يحدث هذا التسريب لأن هذه النماذج تتذكر بشدة الأمثلة المستخدمة في إدخال الباب الخلفي.

النتائج المتحققة واختبار التقنية الجديدة

في التجارب التي أجريت على نماذج مبرمجة للاستجابة بسلوك عدائي عند تلقي علامة نشر معينة، أظهرت النماذج تسريب الأمثلة المسمومة عند تحفيزها برموز القالب. بعد استخراج المحرضات المحتملة، يقوم الماسح بتحليل الديناميكيات الداخلية للنموذج للتحقق منها. وقد حدد الفريق ظاهرة أطلقوا عليها \"اختطاف الانتباه\"، حيث يعالج النموذج العبارة المحرضة بشكل مستقل تقريبًا عن النص المحيط.

خاتمة

تعتبر هذه الخطوة تطورًا حيويًا في مجال الأمان الإلكتروني، حيث تضمن حماية تقنية ومعلوماتية متقدمة في مواجهة التهديدات المعقدة التي تشكلها النماذج الذكائية المسمومة. يمكن لهذا الابتكار أن يعزز ثقة الشركات في استخدام وتطوير نماذج ذكاء اصطناعي آمنة وفعالة، مما يساهم في تعزيز بيئة أكثر أمانًا لتكنولوجيا المعلومات والاتصالات.

المصدر:
Ahmed Shahen | E-learning Expert
Ahmed Shahen | E-learning Expert
Ahmed Shahen is an experienced Instructional Designer, with over 20 years of expertise in the e-learning field. With a solid 25 years of experience in technical writing and courseware development, he has authored 30 books in ICT. His current role includes creating course strategies, guidelines, and specification documents, designing and reviewing Instructor-Led Training (ILT), Computer-Based Training (CBT), and Web-Based Training (WBT) materials.
تعليقات