|
8 | 8 |
|
9 | 9 | على الرغم من أن "حقن التعليمات" و"كسر القيود (Jailbreaking)" هما مفهومان مرتبطان في مجال أمن نماذج اللغة الكبيرة، إلا أنه غالبًا ما يتم استخدامهما بشكل متبادل. يتضمن حقن التعليمات التلاعب باستجابات النموذج من خلال مدخلات محددة بهدف تغيير سلوكه، وقد يشمل ذلك تجاوز تدابير الأمان. أما كسر القيود، فهو شكل من أشكال حقن التعليمات، حيث يُدخل المهاجم تعليمات تدفع النموذج إلى تجاهل بروتوكولات الأمان بالكامل. يمكن للمطورين بناء تدابير حماية داخل تعليمات النظام وآليات لمعالجة المدخلات من أجل المساعدة في التخفيف من هجمات حقن التعليمات، إلا أن الوقاية الفعالة من كسر القيود تتطلب تحديثات مستمرة في تدريب النموذج وآلياته الأمنية. |
10 | 10 |
|
11 | | -### أنواع ثغرات حقن التعلميات |
| 11 | +### أنواع ثغرات حقن التعليمات |
12 | 12 |
|
13 | | -#### حقن التعلميات المباشر |
| 13 | +#### حقن التعليمات المباشر |
14 | 14 | تحدث ثغرات "حقن التعليمات المباشر (Direct Prompt Injections)" عندما يؤدي إدخال المستخدم للتعليمات إلى تغيير سلوك النموذج بشكل غير مقصود أو غير متوقع. وقد يكون هذا الإدخال مقصودًا (أي أن جهة خبيثة تقوم بصياغة التعليمات عمدًا لاستغلال النموذج)، أو غير مقصود (أي أن المستخدم يُدخل تعليمات دون قصد تؤدي إلى سلوك غير متوقع من النموذج). |
15 | 15 |
|
16 | | -#### حقن التعلميات غير المباشر |
| 16 | +#### حقن التعليمات غير المباشر |
17 | 17 | تحدث ثغرات "حقن التعليمات غير المباشر (Indirect Prompt Injections)" عندما يستقبل نموذج اللغة الكبير مدخلات من مصادر خارجية، مثل المواقع الإلكترونية أو الملفات. وقد يتضمن هذا المحتوى الخارجي بيانات تؤدي، عند تفسيرها من قبل النموذج، إلى تغيير سلوكه بطريقة غير مقصودة أو غير متوقعة. وكما هو الحال في الحقن المباشر، يمكن أن يكون الحقن غير المباشر إما مقصودًا، أو غير مقصود. |
18 | 18 |
|
19 | | -يمكن أن تختلف خطورة وطبيعة تأثير الهجوم الناجح لحقن التعلميات بدرجة كبيرة، ويعتمد ذلك إلى حد كبير على كلٍّ من سياق العمل الذي يعمل فيه النموذج سياق وعلى درجة الاستقلالية (Agency) التي تم تصميم النموذج بها. ومع ذلك، وبشكلٍ عام فإن هجمات حقن التعليمات قد تؤدي إلى نتائج غير مقصودة، تشمل – ولكن لا تقتصر على – ما يلي: |
| 19 | +يمكن أن تختلف خطورة وطبيعة تأثير الهجوم الناجح لحقن التعليمات بدرجة كبيرة، ويعتمد ذلك إلى حد كبير على كلٍّ من سياق العمل الذي يعمل فيه النموذج وعلى درجة الاستقلالية (Agency) التي تم تصميم النموذج بها. ومع ذلك، وبشكلٍ عام فإن هجمات حقن التعليمات قد تؤدي إلى نتائج غير مقصودة، تشمل – ولكن لا تقتصر على – ما يلي: |
20 | 20 |
|
21 | | -- الإفصاح عن معلومات حساسة |
22 | | -- الكشف عن معلومات حساسة حول بنية نظام الذكاء الاصطناعي أو تعلميات النظام |
| 21 | +- الإفصاح عن معلومات حساسة- الكشف عن معلومات حساسة حول بنية نظام الذكاء الاصطناعي أو تعليمات النظام |
23 | 22 | - التلاعب بالمحتوى مما يؤدي إلى مخرجات غير صحيحة أو متحيزة |
24 | 23 | - توفير وصول غير مصرح به إلى الوظائف المتاحة للنموذج اللغوي الكبير |
25 | 24 | - تنفيذ أوامر عشوائية في الأنظمة المتصلة |
26 | 25 | - التلاعب بعمليات اتخاذ القرارات الحرجة |
27 | 26 |
|
28 | | -إنَّ صعود الذكاء الاصطناعي متعدد الوسائط (Multimodal AI)، الذي يعالج أنواع بيانات متعددة في وقت واحد، يُدخل مخاطر فريدة لحقن التعلميات. إذ يمكن للجهات الخبيثة استغلال التفاعلات بين الوسائط، مثل إخفاء تعليمات ضمن صور مرفقة بنصوص تبدو سليمة. كما أن تعقيد هذه الأنظمة يُوسّع من مساحة الهجوم. وقد تكون النماذج متعددة الوسائط أيضًا عرضة لهجمات جديدة عابرة للوسائط (Cross-Modal Attacks)، حيث يصعب اكتشافها والتعامل معها باستخدام الأساليب الحالية. لذلك، فإن تطوير دفاعات قوية خاصة بالنماذج متعددة الوسائط يُعد مجالًا بالغ الأهمية للبحث والتطوير المستقبلي. |
| 27 | +إنَّ صعود الذكاء الاصطناعي متعدد الوسائط (Multimodal AI)، الذي يعالج أنواع بيانات متعددة في وقت واحد، يُدخل مخاطر فريدة لحقن التعليمات. إذ يمكن للجهات الخبيثة استغلال التفاعلات بين الوسائط، مثل إخفاء تعليمات ضمن صور مرفقة بنصوص تبدو سليمة. كما أن تعقيد هذه الأنظمة يُوسّع من مساحة الهجوم. وقد تكون النماذج متعددة الوسائط أيضًا عرضة لهجمات جديدة عابرة للوسائط (Cross-Modal Attacks)، حيث يصعب اكتشافها والتعامل معها باستخدام الأساليب الحالية. لذلك، فإن تطوير دفاعات قوية خاصة بالنماذج متعددة الوسائط يُعد مجالًا بالغ الأهمية للبحث والتطوير المستقبلي. |
29 | 28 |
|
30 | 29 | ### استراتيجيات الوقاية والتخفيف |
31 | 30 |
|
|
36 | 35 | #### 2. حدّد وتحقق من تنسيقات المخرجات المتوقعة |
37 | 36 | حدّد تنسيقات مخرجات واضحة، واطلب تقديم تبريرات تفصيلية مع ذكر المصادر عند الحاجة. استخدم تعليمات برمجية حتمية (Deterministic Code) للتحقق من الالتزام بهذه التنسيقات. |
38 | 37 | #### 3. طبّق تصفية على المدخلات والمخرجات |
39 | | - حدّد الفئات الحساسة ووقم ببناء قواعد لتحديد ومعالجة مثل هذا المحتوى. طبّق مرشحات دلالية (Semantic Filters) واستخدم تقنيات فحص السلاسل النصية لاكتشاف المحتوى غير المسموح به. قيّم المخرجات باستخدام الإطار التنظيمي الثلاثي للتوليد المعزز بالاسترجاع (RAG Triad) الذي يشمل: تقييم مدى ارتباط السياق (Context Relevance)، والاستناد إلى مصادر دقيقة (Groundedness)، وملاءمة السؤال والإجابة (Question/Answer Relevance) وذلك لتحديد المخرجات التي قد تكون خبيثة أو غير آمنة. |
| 38 | + حدّد الفئات الحساسة وقم ببناء قواعد لتحديد ومعالجة مثل هذا المحتوى. طبّق مرشحات دلالية (Semantic Filters) واستخدم تقنيات فحص السلاسل النصية لاكتشاف المحتوى غير المسموح به. قيّم المخرجات باستخدام الإطار التنظيمي الثلاثي للتوليد المعزز بالاسترجاع (RAG Triad) الذي يشمل: تقييم مدى ارتباط السياق (Context Relevance)، والاستناد إلى مصادر دقيقة (Groundedness)، وملاءمة السؤال والإجابة (Question/Answer Relevance) وذلك لتحديد المخرجات التي قد تكون خبيثة أو غير آمنة. |
40 | 39 | #### 4. افرض ضوابط على الامتيازات وطبّق الحد الأدنى من الوصول |
41 | 40 | زوّد التطبيق برموز وصول لواجهة البرمجة (API Tokens) خاصة به للوظائف القابلة للتوسعة، وتعامل مع هذه الوظائف من خلال الشيفرة البرمجية بدلاً من تمريرها إلى النموذج. قيّد امتيازات الوصول الخاصة بالنموذج إلى الحد الأدنى اللازم لأداء مهامه المقصودة فقط. |
42 | 41 | #### 5. اطلب الموافقة البشرية للإجراءات عالية الخطورة |
|
49 | 48 | ### مثال على سيناريوهات الهجوم |
50 | 49 |
|
51 | 50 | #### السيناريو #1: الحقن المباشر |
52 | | - يقوم المهاجم بحقن تعلمية في روبوت دردشة دعم العملاء، حيث يوجه المهاجم الروبوت لتجاهل الإرشادات السابقة، ويطلب منه الاستعلام عن مخازن البيانات الخاصة، وإرسال رسائل بريد إلكتروني، مما يؤدي إلى وصول غير مصرح به وتصعيد الامتيازات (Privilege Escalation). |
| 51 | + يقوم المهاجم بحقن تعليمة في روبوت دردشة دعم العملاء، حيث يوجه المهاجم الروبوت لتجاهل الإرشادات السابقة، ويطلب منه الاستعلام عن مخازن البيانات الخاصة، وإرسال رسائل بريد إلكتروني، مما يؤدي إلى وصول غير مصرح به وتصعيد الامتيازات (Privilege Escalation). |
53 | 52 | #### السيناريو #2: الحقن غير المباشر |
54 | 53 | يستخدم أحد المستخدمين نموذج لغة كبير لتلخيص صفحة ويب تحتوي على تعليمات مخفية تطلب من النموذج إدراج صورة ترتبط بعنوان ويب (URL)، مما يؤدي إلى تسريب محتوى المحادثة الخاصة. |
55 | 54 | #### السيناريو #3: الحقن غير المقصود |
56 | 55 | تقوم إحدى الشركات بإدراج تعليمات ضمن وصف وظيفي من أجل التعرف على الطلبات المكتوبة بواسطة الذكاء الاصطناعي. يقوم أحد المتقدمين — دون علم بهذه التعليمات — باستخدام نموذج لغة كبير لتحسين سيرته الذاتية بناء على الوصف الوظيفي، مما يؤدي دون قصد إلى تفعيل آلية اكتشاف المحتوى الاصطناعي. |
57 | 56 | #### السيناريو #4: التأثير المتعمّد على النموذج |
58 | 57 | يقوم المهاجم بتعديل مستند موجود في مستودع برمجي (repository) مُستخدم من قبل تطبيق مبني على تقنية التوليد المعزز بالاسترجاع (RAG). عندما يطلب المستخدم استعلام يحتوي في نتائجه على المحتوى المعدل، تقوم التعليمات الخبيثة - الموجودة في المحتوى المعدل - بتغيير مخرجات النموذج، مما يؤدي إلى نتائج مضللة. |
59 | 58 | #### السيناريو #5: حقن التعليمات البرمجية |
60 | | - يستغل المهاجم الثغرة الأمنية رقم (CVE-2024-5184) في مساعد البريد الإلكتروني المدعوم بالنموذج اللغوي الكبير لحقن تعلميات خبيثة، مما يسمح بالوصول إلى معلومات حساسة والتلاعب بمحتوى البريد الإلكتروني. |
| 59 | + يستغل المهاجم الثغرة الأمنية رقم (CVE-2024-5184) في مساعد البريد الإلكتروني المدعوم بالنموذج اللغوي الكبير لحقن تعليمات خبيثة، مما يسمح بالوصول إلى معلومات حساسة والتلاعب بمحتوى البريد الإلكتروني. |
61 | 60 | #### السيناريو #6: تقسيم الحمولة |
62 | | - يقوم المهاجم بتحميل سيرة ذاتية تحتوي على تعلميات خبيثة مخفية. عندما يتم استخدام نموذج لغوي كبير لتقييم المرشح للوظيفة، تقوم التعلميات الخبيثة المخفية بالتلاعب باستجابة النموذج، مما يؤدي إلى توصية إيجابية على الرغم من محتويات السيرة الذاتية الفعلية. |
| 61 | + يقوم المهاجم بتحميل سيرة ذاتية تحتوي على تعليمات خبيثة مخفية. عندما يتم استخدام نموذج لغوي كبير لتقييم المرشح للوظيفة، تقوم التعليمات الخبيثة المخفية بالتلاعب باستجابة النموذج، مما يؤدي إلى توصية إيجابية على الرغم من محتويات السيرة الذاتية الفعلية. |
63 | 62 | #### السيناريو #7: الحقن متعدد الوسائط |
64 | | - يقوم مهاجم بتضمين تعلمية خبيثة داخل صورة ترافق نصًا يبدو سليماً. عندما يعالج الذكاء الاصطناعي متعدد الوسائط الصورة والنص في وقت واحد، تقوم التعلمية المخفية بتغيير سلوك النموذج، مما قد يؤدي إلى إجراءات غير مصرح بها أو الكشف عن معلومات حساسة. |
| 63 | + يقوم مهاجم بتضمين تعليمة خبيثة داخل صورة ترافق نصًا يبدو سليماً. عندما يعالج الذكاء الاصطناعي متعدد الوسائط الصورة والنص في وقت واحد، تقوم التعليمة المخفية بتغيير سلوك النموذج، مما قد يؤدي إلى إجراءات غير مصرح بها أو الكشف عن معلومات حساسة. |
65 | 64 | #### السيناريو #8: اللاحقة العدائية |
66 | | - يقوم المهاجم بإضافة سلسلة من الأحرف التي تبدو بلا معنى إلى التعلمية، مما يؤثر على مخرجات النموذج اللغوي الكبير بطريقة خبيثة، متجاوزًا تدابير الأمان. |
| 65 | + يقوم المهاجم بإضافة سلسلة من الأحرف التي تبدو بلا معنى إلى التعليمة، مما يؤثر على مخرجات النموذج اللغوي الكبير بطريقة خبيثة، متجاوزًا تدابير الأمان. |
67 | 66 | #### السيناريو #9: الهجوم متعدد اللغات / المُموّه |
68 | 67 | يستخدم المهاجم لغات متعددة أو يشفر التعليمات الخبيثة (مثل استخدام Base64 أو الرموز التعبيرية) للتهرب من المرشحات والتلاعب بسلوك النموذج اللغوي الكبير. |
69 | 68 |
|
|
0 commit comments