|
1 | | -## LLM01:2025 حقن التعليمات (Prompt Injection) |
| 1 | +## LLM01:2025 حقن التعليمات |
2 | 2 |
|
3 | 3 | ### الوصف |
4 | 4 |
|
|
31 | 31 |
|
32 | 32 | تُعد ثغرات حقن التعليمات (Prompt Injection) ممكنة الحدوث بسبب طبيعة الذكاء الاصطناعي التوليدي. ونظرًا للتأثير الاحتمالي (Stochastic) الكامن في آلية عمل النماذج، فإنه من غير الواضح ما إذا كانت هناك طرق وقائية مضمونة تمامًا ضد حقن التعليمات. ومع ذلك، يمكن للتدابير التالية أن تُخفف من أثر هجمات حقن التعليمات: |
33 | 33 |
|
34 | | -#### 1. تقييد سلوك النموذج (Constrain model behavior) |
| 34 | +#### 1. تقييد سلوك النموذج |
35 | 35 | زوّد النموذج بتعليمات واضحة ضمن التعليمات النظامية (System Prompt) تحدد دوره، وقدراته، وحدوده. قم بفرض الالتزام الصارم بالسياق، وقيّد الاستجابات بمهام أو مواضيع محددة، ووجّه النموذج إلى تجاهل أي محاولات لتعديل التعليمات الجوهرية. |
36 | | -#### 2. تحديد والتحقق من تنسيقات المخرجات المتوقعة (Define and validate expected output formats) |
| 36 | +#### 2. تحديد والتحقق من تنسيقات المخرجات المتوقعة |
37 | 37 | حدّد تنسيقات مخرجات واضحة، واطلب من النموذج تقديم تبريرات تفصيلية مع ذكر المصادر عند الحاجة.استخدم شيفرة حتمية (Deterministic Code) للتحقق من التزام النموذج بهذه التنسيقات. |
38 | | -#### 3. تنفيذ تصفية المدخلات والمخرجات (Implement input and output filtering) |
| 38 | +#### 3. تنفيذ تصفية المدخلات والمخرجات |
39 | 39 | حدّد الفئات الحساسة وبناء قواعد لتحديد ومعالجة مثل هذا المحتوى. طبّق مرشحات دلالية (Semantic Filters) واستخدم تقنيات فحص السلاسل النصية لاكتشاف المحتوى غير المسموح به. قيّم المخرجات باستخدام إطار RAG Triad الذي يشمل: تقييم مدى ارتباط السياق (Context Relevance)، الاستناد إلى مصادر دقيقة (Groundedness)، وملاءمة السؤال والإجابة (Question/Answer Relevance) وذلك لتحديد المخرجات التي قد تكون خبيثة أو غير آمنة. |
40 | | -#### 4. فرض ضوابط الامتيازات ومبدأ الحد الأدنى من الوصول (Enforce privilege control and least privilege access) |
| 40 | +#### 4. فرض ضوابط الامتيازات ومبدأ الحد الأدنى من الوصول |
41 | 41 | زوّد التطبيق برموز وصول (API Tokens) خاصة به للوظائف القابلة للتوسعة، وتعامل مع هذه الوظائف من خلال الشيفرة البرمجية بدلاً من تمريرها إلى النموذج. قيّد امتيازات الوصول الخاصة بالنموذج إلى الحد الأدنى اللازم لأداء مهامه المقصودة فقط. |
42 | | -#### 5. طلب الموافقة البشرية على الإجراءات عالية المخاطر (Require human approval for high-risk actions) |
| 42 | +#### 5. طلب الموافقة البشرية على الإجراءات عالية المخاطر |
43 | 43 | طبق ضوابط "الإنسان في الحلقة" (Human-in-the-Loop) للعمليات المميزة لمنع الإجراءات غير المصرح بها. |
44 | | -#### 6. فصل وتحديد المحتوى الخارجي (Segregate and identify external content) |
| 44 | +#### 6. فصل وتحديد المحتوى الخارجي |
45 | 45 | افصل المحتوى غير الموثوق به بشكل واضح ومُعلَن، وميّزه بوضوح عن بقية المحتوى، وذلك لتقليل تأثيره على تعليمات المستخدم أو مدخلاته. |
46 | | -#### 7. إجراء اختبارات هجومية ومحاكاة الهجمات (Conduct adversarial testing and attack simulations) |
| 46 | +#### 7. إجراء اختبارات هجومية ومحاكاة الهجمات |
47 | 47 | قم بإجراء اختبارات اختراق (Penetration Testing) ومحاكاة لسيناريوهات الهجوم بشكل منتظم،مع التعامل مع النموذج كطرف غير موثوق به (Untrusted User) لاختبار فعالية حدود الثقة (Trust Boundaries) وآليات التحكم في الوصول (Access Controls). |
48 | 48 |
|
49 | 49 | ### مثال على سيناريوهات الهجوم |
50 | 50 |
|
51 | | -#### السيناريو #1: الحقن المباشر (Direct Injection) |
| 51 | +#### السيناريو #1: الحقن المباشر |
52 | 52 | يقوم المهاجم بحقن تعلمية في روبوت دردشة دعم العملاء، يوجهه لتجاهل الإرشادات السابقة، واستعلام مخازن البيانات الخاصة، وإرسال رسائل بريد إلكتروني، مما يؤدي إلى وصول غير مصرح به وتصعيد الامتيازات. |
53 | | -#### السيناريو #2: الحقن غير المباشر (Indirect Injection) |
| 53 | +#### السيناريو #2: الحقن غير المباشر |
54 | 54 | يستخدم أحد المستخدمين نموذج لغة كبير (LLM) لتلخيص صفحة ويب تحتوي على تعليمات خفية، مما يدفع النموذج إلى إدراج صورة ترتبط بعنوان URL، ويؤدي ذلك إلى تسريب محتوى المحادثة الخاصة. |
55 | | -#### السيناريو #3: الحقن غير المقصود (Unintentional Injection) |
| 55 | +#### السيناريو #3: الحقن غير المقصود |
56 | 56 | تقوم إحدى الشركات بإدراج تعليمات ضمن وصف وظيفي تطلب فيها التعرف على الطلبات المكتوبة بواسطة الذكاء الاصطناعي. يقوم أحد المتقدمين — دون علم بهذه التعليمات — باستخدام نموذج لغة لتحسين سيرته الذاتية، مما يؤدي دون قصد إلى تفعيل آلية اكتشاف المحتوى الاصطناعي. |
57 | | -#### السيناريو #4: التأثير المتعمّد على النموذج (Intentional Model Influence) |
| 57 | +#### السيناريو #4: التأثير المتعمّد على النموذج |
58 | 58 | يقوم المهاجم بتعديل مستند في مستودع (repository) يستخدمه تطبيق توليد المعلومات المعزز بالاسترجاع (RAG). عندما يعيد استعلام المستخدم المحتوى المعدل، تقوم التعليمات الخبيثة بتغيير مخرجات النموذج، مما يؤدي إلى نتائج مضللة. |
59 | | -#### السيناريو #5: حقن الشيفرة (Code Injection) |
| 59 | +#### السيناريو #5: حقن الشيفرة |
60 | 60 | يستغل المهاجم ثغرة (CVE-2024-5184) في مساعد البريد الإلكتروني المدعوم بالنموذج اللغوي الكبير لحقن تعلميات خبيثة، مما يسمح بالوصول إلى معلومات حساسة والتلاعب بمحتوى البريد الإلكتروني. |
61 | | -#### السيناريو #6: تقسيم الحمولة (Payload Splitting) |
| 61 | +#### السيناريو #6: تقسيم الحمولة |
62 | 62 | يقوم المهاجم بتحميل سيرة ذاتية تحتوي على تعلميات خبيثة مخفية. عندما يتم استخدام النموذج اللغوي الكبير لتقييم المرشح، تقوم التعلميات المخفية بالتلاعب باستجابة النموذج، مما يؤدي إلى توصية إيجابية على الرغم من محتويات السيرة الذاتية الفعلية. |
63 | | -#### السيناريو #7: الحقن متعدد الوسائط (Multimodal Injection) |
| 63 | +#### السيناريو #7: الحقن متعدد الوسائط |
64 | 64 | يقوم مهاجم بتضمين تعلمية خبيثة داخل صورة ترافق نصًا بريئًا. عندما يعالج الذكاء الاصطناعي متعدد الوسائط الصورة والنص في وقت واحد، تقوم التعلمية المخفية بتغيير سلوك النموذج، مما قد يؤدي إلى إجراءات غير مصرح بها أو الكشف عن معلومات حساسة. |
65 | | -#### السيناريو #8: اللاحقة العدائية (Adversarial Suffix) |
| 65 | +#### السيناريو #8: اللاحقة العدائية |
66 | 66 | يقوم المهاجم بإضافة سلسلة من الأحرف التي تبدو بلا معنى إلى التعلمية، مما يؤثر على مخرجات النموذج اللغوي الكبير بطريقة خبيثة، متجاوزًا تدابير الأمان. |
67 | | -#### السيناريو #9: الهجوم متعدد اللغات / المُموّه (Multilingual/Obfuscated Attack) |
| 67 | +#### السيناريو #9: الهجوم متعدد اللغات / المُموّه |
68 | 68 | يستخدم المهاجم لغات متعددة أو يشفر التعليمات الخبيثة (مثل استخدام Base64 أو الرموز التعبيرية) لتجنب المرشحات والتلاعب بسلوك النموذج اللغوي الكبير. |
69 | 69 |
|
70 | 70 | ### روابط مرجعية |
|
0 commit comments