|
32 | 32 |
|
33 | 33 | تُعد ثغرات حقن التعليمات (Prompt Injection) ممكنة الحدوث بسبب طبيعة الذكاء الاصطناعي التوليدي. ونظرًا للتأثير الاحتمالي (Stochastic) الكامن في آلية عمل النماذج، فإنه من غير الواضح ما إذا كانت هناك طرق وقائية مضمونة تمامًا ضد حقن التعليمات. ومع ذلك، يمكن للتدابير التالية أن تُخفف من أثر هجمات حقن التعليمات: |
34 | 34 |
|
35 | | -#### 1. تقييد سلوك النموذج |
| 35 | +#### 1. تقييد سلوك النموذج (Constrain model behavior) |
36 | 36 | زوّد النموذج بتعليمات واضحة ضمن التعليمات النظامية (System Prompt) تحدد دوره، وقدراته، وحدوده. قم بفرض الالتزام الصارم بالسياق، وقيّد الاستجابات بمهام أو مواضيع محددة، ووجّه النموذج إلى تجاهل أي محاولات لتعديل التعليمات الجوهرية. |
37 | | -#### 2. تحديد والتحقق من تنسيقات المخرجات المتوقعة |
| 37 | +#### 2. تحديد والتحقق من تنسيقات المخرجات المتوقعة (Define and validate expected output formats) |
38 | 38 | حدّد تنسيقات مخرجات واضحة، واطلب من النموذج تقديم تبريرات تفصيلية مع ذكر المصادر عند الحاجة.استخدم شيفرة حتمية (Deterministic Code) للتحقق من التزام النموذج بهذه التنسيقات. |
39 | | -#### 3. تنفيذ تصفية المدخلات والمخرجات |
| 39 | +#### 3. تنفيذ تصفية المدخلات والمخرجات (Implement input and output filtering) |
40 | 40 | حدّد الفئات الحساسة وبناء قواعد لتحديد ومعالجة مثل هذا المحتوى. طبّق مرشحات دلالية (Semantic Filters) واستخدم تقنيات فحص السلاسل النصية لاكتشاف المحتوى غير المسموح به. قيّم المخرجات باستخدام إطار RAG Triad الذي يشمل: تقييم مدى ارتباط السياق (Context Relevance)، الاستناد إلى مصادر دقيقة (Groundedness)، وملاءمة السؤال والإجابة (Question/Answer Relevance) وذلك لتحديد المخرجات التي قد تكون خبيثة أو غير آمنة. |
41 | | -#### 4. فرض ضوابط الامتيازات ومبدأ الحد الأدنى من الوصول |
| 41 | +#### 4. فرض ضوابط الامتيازات ومبدأ الحد الأدنى من الوصول (Enforce privilege control and least privilege access) |
42 | 42 | زوّد التطبيق برموز وصول (API Tokens) خاصة به للوظائف القابلة للتوسعة، وتعامل مع هذه الوظائف من خلال الشيفرة البرمجية بدلاً من تمريرها إلى النموذج. |
43 | 43 | قيّد امتيازات الوصول الخاصة بالنموذج إلى الحد الأدنى اللازم لأداء مهامه المقصودة فقط. |
44 | | -#### 5. طلب الموافقة البشرية على الإجراءات عالية المخاطر |
| 44 | +#### 5. طلب الموافقة البشرية على الإجراءات عالية المخاطر (Require human approval for high-risk actions) |
45 | 45 | طبق ضوابط "الإنسان في الحلقة" (Human-in-the-Loop) للعمليات المميزة لمنع الإجراءات غير المصرح بها. |
46 | | -#### 6. فصل وتحديد المحتوى الخارجي |
| 46 | +#### 6. فصل وتحديد المحتوى الخارجي (Segregate and identify external content) |
47 | 47 | افصل المحتوى غير الموثوق به بشكل واضح ومُعلَن، وميّزه بوضوح عن بقية المحتوى، وذلك لتقليل تأثيره على تعليمات المستخدم أو مدخلاته. |
48 | | -#### 7. إجراء اختبارات هجومية ومحاكاة الهجمات |
| 48 | +#### 7. إجراء اختبارات هجومية ومحاكاة الهجمات (Conduct adversarial testing and attack simulations) |
49 | 49 | قم بإجراء اختبارات اختراق (Penetration Testing) ومحاكاة لسيناريوهات الهجوم بشكل منتظم،مع التعامل مع النموذج كطرف غير موثوق به (Untrusted User) لاختبار فعالية حدود الثقة (Trust Boundaries) وآليات التحكم في الوصول (Access Controls). |
50 | 50 | ### مثال على سيناريوهات الهجوم |
51 | 51 |
|
|
56 | 56 | #### السيناريو #3: الحقن غير المقصود (Unintentional Injection) |
57 | 57 | تقوم إحدى الشركات بإدراج تعليمات ضمن وصف وظيفي تطلب فيها التعرف على الطلبات المكتوبة بواسطة الذكاء الاصطناعي. يقوم أحد المتقدمين — دون علم بهذه التعليمات — باستخدام نموذج لغة لتحسين سيرته الذاتية، مما يؤدي دون قصد إلى تفعيل آلية اكتشاف المحتوى الاصطناعي. |
58 | 58 | #### السيناريو #4: التأثير المتعمّد على النموذج (Intentional Model Influence) |
59 | | -يقوم المهاجم بتعديل مستند في مستودع يستخدمه تطبيق توليد المعلومات المعزز بالاسترجاع (RAG). عندما يعيد استعلام المستخدم المحتوى المعدل، تقوم التعليمات الخبيثة بتغيير مخرجات النموذج، مما يؤدي إلى نتائج مضللة. |
| 59 | +يقوم المهاجم بتعديل مستند في مستودع (repository) يستخدمه تطبيق توليد المعلومات المعزز بالاسترجاع (RAG). عندما يعيد استعلام المستخدم المحتوى المعدل، تقوم التعليمات الخبيثة بتغيير مخرجات النموذج، مما يؤدي إلى نتائج مضللة. |
60 | 60 | #### السيناريو #5: حقن الشيفرة (Code Injection) |
61 | 61 | يستغل المهاجم ثغرة (CVE-2024-5184) في مساعد البريد الإلكتروني المدعوم بالنموذج اللغوي الكبير لحقن تعلميات خبيثة، مما يسمح بالوصول إلى معلومات حساسة والتلاعب بمحتوى البريد الإلكتروني. |
62 | | -#### السيناريو #6: تقسيم الحمولة الخبيثة (Payload Splitting) |
| 62 | +#### السيناريو #6: تقسيم الحمولة (Payload Splitting) |
63 | 63 | يقوم المهاجم بتحميل سيرة ذاتية تحتوي على تعلميات خبيثة مخفية. عندما يتم استخدام النموذج اللغوي الكبير لتقييم المرشح، تقوم التعلميات المخفية بالتلاعب باستجابة النموذج، مما يؤدي إلى توصية إيجابية على الرغم من محتويات السيرة الذاتية الفعلية. |
64 | 64 | #### السيناريو #7: الحقن متعدد الوسائط (Multimodal Injection) |
65 | 65 | يقوم مهاجم بتضمين تعلمية خبيثة داخل صورة ترافق نصًا بريئًا. عندما يعالج الذكاء الاصطناعي متعدد الوسائط الصورة والنص في وقت واحد، تقوم التعلمية المخفية بتغيير سلوك النموذج، مما قد يؤدي إلى إجراءات غير مصرح بها أو الكشف عن معلومات حساسة. |
|
0 commit comments