|
4 | 4 |
|
5 | 5 | يمكن أن تؤثر المعلومات الحساسة على كل من نموذج اللغة الكبير (LLM) وسياق التطبيق الذي يُستخدم فيه.وتشمل هذه المعلومات: البيانات الشخصية المُعرِّفة (PII)، التفاصيل المالية، السجلات الصحية، بيانات الأعمال السرّية، بيانات الاعتماد الأمنية، والمستندات القانونية. كما قد تحتوي النماذج المملوكة (Proprietary Models) على أساليب تدريب فريدة أو شيفرة مصدر تُعد معلومات حساسة، خاصة في حالة النماذج المغلقة أو النماذج الأساسية (Foundation Models). |
6 | 6 |
|
7 | | -تواجه ، خاصة عند تضمينها داخل التطبيقات، مخاطر كشف بيانات حساسة أو خوارزميات مملوكة أو تفاصيل سرّية من خلال مخرجاتها. وقد يؤدي ذلك إلى وصول غير مصرح به للمعلومات، وانتهاكات للخصوصية، وتسريبات لحقوق الملكية الفكرية. يجب على المستخدمين أن يكونوا على دراية بكيفية التفاعل الآمن مع هذه النماذج، وأن يفهموا المخاطر المرتبطة بتقديم بيانات حساسة عن غير قصد، والتي قد يتم الكشف عنها لاحقًا في مخرجات النموذج. |
| 7 | +تواجه نماذج اللغة الكبيرة، خاصة عند تضمينها داخل التطبيقات، مخاطر كشف بيانات حساسة أو خوارزميات مملوكة أو تفاصيل سرّية من خلال مخرجاتها. وقد يؤدي ذلك إلى وصول غير مُصرح به للمعلومات، وانتهاكات للخصوصية، وتسريبات لحقوق الملكية الفكرية. يجب على المستخدمين أن يكونوا على دراية بكيفية التفاعل الآمن مع هذه النماذج، وأن يفهموا المخاطر المرتبطة بتقديم بيانات حساسة عن غير قصد، والتي قد يتم الكشف عنها لاحقًا في مخرجات النموذج. |
8 | 8 |
|
9 | | -ولتقليل هذا الخطر، ينبغي على تطبيقات نماذج اللغة الكبيرة (LLMs) أن تُجري عمليات تنظيف ومعالجة مناسبة للبيانات (Data Sanitization) لمنع دخول بيانات المستخدم إلى النموذج أثناء التدريب. كما ينبغي على مالكي التطبيقات توفير سياسات واضحة لشروط الاستخدام (Terms of Use)، تتيح للمستخدمين خيار الانسحاب من استخدام بياناتهم في التدريب. ويمكن أن يُسهم تضمين قيود داخل التعليمات النظامية (System Prompt) توضح أنواع البيانات التي يُسمح للنموذج بإرجاعها في الحد من خطر الكشف عن معلومات حساسة، إلا أن هذه القيود قد لا تُحترم دائمًا، وقد يتم تجاوزها عبر حقن التعليمات (Prompt Injection) أو وسائل أخرى. |
| 9 | +ولتقليل هذا الخطر، ينبغي على تطبيقات نماذج اللغة الكبيرة (LLMs) أن تُجري عمليات تنقية ومعالجة مناسبة للبيانات (Data Sanitization) لمنع دخول بيانات المستخدم إلى النموذج أثناء التدريب. كما ينبغي على مالكي التطبيقات توفير سياسات واضحة لشروط الاستخدام (Terms of Use)، تتيح للمستخدمين خيار الانسحاب من استخدام بياناتهم في التدريب. ويمكن أن يُسهم تضمين قيود داخل تعليمة النظام (System Prompt) توضح أنواع البيانات التي يُسمح للنموذج بإرجاعها في الحد من خطر الكشف عن معلومات حساسة، إلا أن هذه القيود قد لا تُحترم دائمًا، وقد يتم تجاوزها عبر حقن التعليمات (Prompt Injection) أو وسائل أخرى. |
10 | 10 |
|
11 | 11 | ### أمثلة شائعة على الثغرات |
12 | 12 |
|
13 | 13 | #### 1. تسريب البيانات الشخصية (PII Leakage) |
14 | 14 | قد يتم الكشف عن معلومات تعريفية شخصية (PII) أثناء التفاعل مع نموذج اللغة الكبير (LLM)، مما يؤدي إلى انتهاكات للخصوصية أو تسريبات غير مقصودة للبيانات الحساسة. |
15 | | - |
16 | 15 | #### 2. كشف الخوارزميات المملوكة (Proprietary Algorithm Exposure) |
17 | | -يمكن أن تؤدي مخرجات النموذج غير المحكمة إلى كشف خوارزميات أو بيانات مملوكة. وقد يؤدي كشف بيانات التدريب إلى تعريض النماذج لهجمات الانعكاس (Inversion Attacks)، حيث يستطيع المهاجمون استخراج معلومات حساسة أو إعادة بناء المدخلات الأصلية. |
18 | | -على سبيل المثال، كما تم توثيقه في هجوم "Proof Pudding "(CVE-2019-20634)، أدى الكشف عن بيانات التدريب إلى تسهيل استخراج النموذج وتنفيذ هجمات انعكاس، مما مكّن المهاجمين من تجاوز ضوابط الأمان في خوارزميات تعلم الآلة وتخطي فلاتر البريد الإلكتروني. |
19 | | - |
| 16 | +يمكن أن تؤدي مخرجات النموذج غير المحكمة إلى كشف خوارزميات أو بيانات مملوكة. وقد يؤدي كشف بيانات التدريب إلى تعريض النماذج لهجمات الانعكاس (Inversion Attacks)، حيث يستطيع المهاجمون استخراج معلومات حساسة أو إعادة بناء المدخلات الأصلية. على سبيل المثال، كما تم توثيقه في هجوم "Proof Pudding "(CVE-2019-20634)، أدى الكشف عن بيانات التدريب إلى تسهيل استخراج النموذج وتنفيذ هجمات انعكاس، مما مكّن المهاجمين من تجاوز ضوابط الأمان في خوارزميات تعلم الآلة وتخطي فلاتر البريد الإلكتروني. |
20 | 17 | #### 3. كشف بيانات الأعمال الحساسة (Sensitive Business Data Disclosure) |
21 | 18 | قد تتضمّن المخرجات التي يُولّدها النموذج معلومات أعمال سرّية عن غير قصد. |
22 | 19 |
|
|
26 | 23 |
|
27 | 24 | #### 1. دمج تقنيات تنقية البيانات (Integrate Data Sanitization Techniques) |
28 | 25 | قم بتطبيق تقنيات تنقية البيانات لمنع إدخال بيانات المستخدم في نموذج التدريب. يشمل ذلك إزالة (Scrubbing) أو إخفاء (Masking) المحتوى الحساس قبل استخدامه لأغراض التدريب. |
29 | | - |
30 | 26 | #### 2. التحقق الصارم من المدخلات (Robust Input Validation) |
31 | 27 | طبّق أساليب تحقق قوية من المدخلات لاكتشاف وتصنيف البيانات التي قد تكون ضارة أو حساسة، وضمان عدم تأثيرها على النموذج أو اختراقه. |
32 | 28 |
|
|
41 | 37 |
|
42 | 38 | #### 1. استخدام التعلم الاتحادي (Utilize Federated Learning) |
43 | 39 | درّب النماذج باستخدام بيانات موزّعة مخزنة عبر عدة خوادم أو أجهزة، بدلاً من تجميع البيانات مركزيًا. يساهم هذا النهج في تقليل الحاجة إلى جمع البيانات في موقع مركزي ويُخفف من مخاطر كشف البيانات الحساسة. |
44 | | - |
45 | 40 | #### 2. دمج الخصوصية التفاضلية (Incorporate Differential Privacy) |
46 | 41 | طبّق تقنيات تضيف ضوضاء (Noise) إلى البيانات أو المخرجات، مما يصعّب على المهاجمين إجراء هندسة عكسية لنقاط البيانات الفردية. |
47 | 42 |
|
48 | 43 | #### توعية المستخدم والشفافية (User Education and Transparency): |
49 | 44 |
|
50 | 45 | #### 1. توعية المستخدمين بكيفية استخدام نماذج اللغة بأمان (Educate Users on Safe LLM Usage) |
51 | | -قدّم إرشادات توضح أهمية تجنّب إدخال المعلومات الحساسة. وفّر تدريبًا على أفضل الممارسات للتفاعل الآمن مع نماذج اللغة الكبيرة (LLMs). |
52 | | - |
| 46 | +قدّم إرشادات توضح أهمية تجنّب إدخال المعلومات الحساسة. وفّر تدريبًا على أفضل الممارسات للتفاعل الآمن مع نماذج اللغة الكبيرة. |
53 | 47 | #### 2. ضمان الشفافية في استخدام البيانات (Ensure Transparency in Data Usage) |
54 | 48 | ضع سياسات واضحة بشأن الاحتفاظ بالبيانات، واستخدامها، وآليات حذفها. أتح للمستخدمين خيار الانسحاب من استخدام بياناتهم في عمليات تدريب النماذج. |
55 | 49 |
|
56 | | - |
57 | 50 | #### تهيئة النظام بشكل آمن (Secure System Configuration): |
58 | 51 |
|
59 | 52 | #### 1. إخفاء التهيئة الأولية للنظام (Conceal System Preamble) |
60 | 53 | قيّد قدرة المستخدمين على الوصول إلى إعدادات النظام الأولية أو تعديلها، مما يقلّل من مخاطر كشف التكوينات الداخلية أو تجاوز التعليمات المبدئية. |
61 | 54 | #### 2. الرجوع إلى أفضل الممارسات في التهيئة الأمنية (Reference Security Misconfiguration Best Practices) |
62 | 55 | اتبع إرشادات موثوقة مثل "OWASP API8:2023 – التهيئة الأمنية غير الصحيحة (Security Misconfiguration)" لتجنّب تسريب معلومات حساسة من خلال رسائل الخطأ أو تفاصيل التكوين. |
63 | | -(رابط مرجعي: OWASP API8:2023 Security Misconfiguration) |
64 | | - (Ref. link:[](https://owasp.org/API-Security/editions/2023/en/0xa8-security-misconfiguration/)) |
| 56 | + (رابط مرجعي:[OWASP API8:2023 Security Misconfiguration](https://owasp.org/API-Security/editions/2023/en/0xa8-security-misconfiguration/)) |
65 | 57 |
|
66 | 58 | #### التقنيات المتقدمة (Advanced Techniques): |
67 | 59 |
|
68 | 60 | #### 1. التشفير المتماثل أثناء المعالجة (Homomorphic Encryption) |
69 | 61 | استخدم التشفير المتماثل القابل للمعالجة لتمكين تحليل البيانات بشكل آمن وتعلم آلي يحافظ على الخصوصية. تضمن هذه التقنية بقاء البيانات في حالة مُشفّرة حتى أثناء المعالجة من قبل النموذج. |
70 | | - |
71 | 62 | #### 2. الترميز والحجب (Tokenization and Redaction) |
72 | 63 | طبّق تقنيات الترميز (Tokenization) كمرحلة تمهيدية لتنقية المعلومات الحساسة قبل معالجتها. يمكن استخدام أدوات مثل مطابقة الأنماط (Pattern Matching) لاكتشاف المحتوى السري وحجبه قبل أن تتم معالجته من قبل النموذج |
73 | 64 |
|
74 | 65 | ### سيناريوهات هجوم توضيحية (Example Attack Scenarios) |
75 | 66 |
|
76 | 67 | #### السيناريو #1: كشف غير مقصود للبيانات (Unintentional Data Exposure) |
77 | 68 | يتلقى أحد المستخدمين استجابة تحتوي على بيانات شخصية لمستخدم آخر، نتيجة غياب أو ضعف في آليات تنقية البيانات (Data Sanitization). |
78 | | - |
79 | 69 | #### السيناريو #2: حقن تعليمات مستهدف (Targeted Prompt Injection) |
80 | 70 | يتمكن مهاجم من تجاوز فلاتر الإدخال لاستخراج معلومات حساسة من النموذج. |
81 | | - |
82 | 71 | #### السيناريو #3: تسريب بيانات من خلال بيانات التدريب (Data Leak via Training Data) |
83 | 72 | يؤدي الإهمال في اختيار بيانات التدريب إلى الكشف عن معلومات حساسة. |
84 | 73 |
|
|
0 commit comments