|
2 | 2 |
|
3 | 3 | ### الوصف |
4 | 4 |
|
5 | | -يمكن أن تؤثر المعلومات الحساسة على كل من نموذج اللغة الكبير (LLM) وسياق التطبيق الذي يُستخدم فيه.وتشمل هذه المعلومات: المعلومات الشخصية المُعَرِّفة (PII)، التفاصيل المالية، السجلات الصحية، بيانات الأعمال السرّية، بيانات الاعتماد الأمنية، والمستندات القانونية. كما قد تحتوي النماذج المملوكة (Proprietary Models) على أساليب تدريب فريدة أو شيفرة مصدر تُعد معلومات حساسة، خاصة في حالة النماذج المغلقة أو النماذج الأساسية (Foundation Models). |
| 5 | +يمكن أن تؤثر المعلومات الحساسة على كل من نموذج اللغة الكبير (LLM) وسياق التطبيق الذي يُستخدم فيه.وتشمل هذه المعلومات: البيانات الشخصية المُعرِّفة (PII)، التفاصيل المالية، السجلات الصحية، بيانات الأعمال السرّية، بيانات الاعتماد الأمنية، والمستندات القانونية. كما قد تحتوي النماذج المملوكة (Proprietary Models) على أساليب تدريب فريدة أو شيفرة مصدر تُعد معلومات حساسة، خاصة في حالة النماذج المغلقة أو النماذج الأساسية (Foundation Models). |
6 | 6 |
|
7 | | -تواجه نماذج اللغة الكبيرة (LLMs)، خاصة عند تضمينها داخل التطبيقات، مخاطر كشف بيانات حساسة أو خوارزميات مملوكة أو تفاصيل سرّية من خلال مخرجاتها. وقد يؤدي ذلك إلى وصول غير مصرح به للمعلومات، وانتهاكات للخصوصية، وتسريبات لحقوق الملكية الفكرية. يجب على المستخدمين أن يكونوا على دراية بكيفية التفاعل الآمن مع هذه النماذج، وأن يفهموا المخاطر المرتبطة بتقديم بيانات حساسة عن غير قصد، والتي قد يتم الكشف عنها لاحقًا في مخرجات النموذج. |
| 7 | +تواجه ، خاصة عند تضمينها داخل التطبيقات، مخاطر كشف بيانات حساسة أو خوارزميات مملوكة أو تفاصيل سرّية من خلال مخرجاتها. وقد يؤدي ذلك إلى وصول غير مصرح به للمعلومات، وانتهاكات للخصوصية، وتسريبات لحقوق الملكية الفكرية. يجب على المستخدمين أن يكونوا على دراية بكيفية التفاعل الآمن مع هذه النماذج، وأن يفهموا المخاطر المرتبطة بتقديم بيانات حساسة عن غير قصد، والتي قد يتم الكشف عنها لاحقًا في مخرجات النموذج. |
8 | 8 |
|
9 | | -ولتقليل هذا الخطر، ينبغي على تطبيقات LLM أن تُجري عمليات تنظيف ومعالجة مناسبة للبيانات (Data Sanitization) لمنع دخول بيانات المستخدم إلى النموذج أثناء التدريب. |
10 | | - |
11 | | -كما ينبغي على مالكي التطبيقات توفير سياسات واضحة لشروط الاستخدام (Terms of Use)، تتيح للمستخدمين خيار الانسحاب من استخدام بياناتهم في التدريب. ويمكن أن يُسهم تضمين قيود داخل التعليمات النظامية (System Prompt) توضح أنواع البيانات التي يُسمح للنموذج بإرجاعها في الحد من خطر الكشف عن معلومات حساسة، إلا أن هذه القيود قد لا تُحترم دائمًا، وقد يتم تجاوزها عبر حقن التعليمات (Prompt Injection) أو وسائل أخرى. |
| 9 | +ولتقليل هذا الخطر، ينبغي على تطبيقات نماذج اللغة الكبيرة (LLMs) أن تُجري عمليات تنظيف ومعالجة مناسبة للبيانات (Data Sanitization) لمنع دخول بيانات المستخدم إلى النموذج أثناء التدريب. كما ينبغي على مالكي التطبيقات توفير سياسات واضحة لشروط الاستخدام (Terms of Use)، تتيح للمستخدمين خيار الانسحاب من استخدام بياناتهم في التدريب. ويمكن أن يُسهم تضمين قيود داخل التعليمات النظامية (System Prompt) توضح أنواع البيانات التي يُسمح للنموذج بإرجاعها في الحد من خطر الكشف عن معلومات حساسة، إلا أن هذه القيود قد لا تُحترم دائمًا، وقد يتم تجاوزها عبر حقن التعليمات (Prompt Injection) أو وسائل أخرى. |
12 | 10 |
|
13 | 11 | ### أمثلة شائعة على الثغرات |
14 | 12 |
|
15 | | -#### 1. تسريب المعلومات الشخصية (PII Leakage) |
| 13 | +#### 1. تسريب البيانات الشخصية (PII Leakage) |
16 | 14 | قد يتم الكشف عن معلومات تعريفية شخصية (PII) أثناء التفاعل مع نموذج اللغة الكبير (LLM)، مما يؤدي إلى انتهاكات للخصوصية أو تسريبات غير مقصودة للبيانات الحساسة. |
17 | 15 |
|
18 | 16 | #### 2. كشف الخوارزميات المملوكة (Proprietary Algorithm Exposure) |
19 | 17 | يمكن أن تؤدي مخرجات النموذج غير المحكمة إلى كشف خوارزميات أو بيانات مملوكة. وقد يؤدي كشف بيانات التدريب إلى تعريض النماذج لهجمات الانعكاس (Inversion Attacks)، حيث يستطيع المهاجمون استخراج معلومات حساسة أو إعادة بناء المدخلات الأصلية. |
20 | | -على سبيل المثال، كما تم توثيقه في هجوم "Proof Pudding" (CVE-2019-20634)، أدى الكشف عن بيانات التدريب إلى تسهيل استخراج النموذج وتنفيذ هجمات انعكاس، مما مكّن المهاجمين من تجاوز ضوابط الأمان في خوارزميات تعلم الآلة وتخطي فلاتر البريد الإلكتروني. |
| 18 | +على سبيل المثال، كما تم توثيقه في هجوم "Proof Pudding "(CVE-2019-20634)، أدى الكشف عن بيانات التدريب إلى تسهيل استخراج النموذج وتنفيذ هجمات انعكاس، مما مكّن المهاجمين من تجاوز ضوابط الأمان في خوارزميات تعلم الآلة وتخطي فلاتر البريد الإلكتروني. |
21 | 19 |
|
22 | 20 | #### 3. كشف بيانات الأعمال الحساسة (Sensitive Business Data Disclosure) |
23 | | -قد تتضمّن المخرجات التي يُولّدها النموذج معلومات أعمال سرّية عن غير قصد، مما يؤدي إلى تسريب غير مصرّح به لمحتوى داخلي أو استراتيجي. |
24 | | - |
| 21 | +قد تتضمّن المخرجات التي يُولّدها النموذج معلومات أعمال سرّية عن غير قصد. |
25 | 22 |
|
26 | 23 | ### استراتيجيات الوقاية والتخفيف |
27 | 24 |
|
28 | 25 | #### تنقية البيانات (Sanitization): |
29 | 26 |
|
30 | 27 | #### 1. دمج تقنيات تنقية البيانات (Integrate Data Sanitization Techniques) |
31 | | -قم بتطبيق تقنيات تنقية البيانات لمنع إدخال بيانات المستخدم في نموذج التدريب. يشمل ذلك إزالة أو إخفاء (Masking) المحتوى الحساس قبل استخدامه لأغراض التدريب. |
| 28 | +قم بتطبيق تقنيات تنقية البيانات لمنع إدخال بيانات المستخدم في نموذج التدريب. يشمل ذلك إزالة (Scrubbing) أو إخفاء (Masking) المحتوى الحساس قبل استخدامه لأغراض التدريب. |
32 | 29 |
|
33 | 30 | #### 2. التحقق الصارم من المدخلات (Robust Input Validation) |
34 | 31 | طبّق أساليب تحقق قوية من المدخلات لاكتشاف وتصنيف البيانات التي قد تكون ضارة أو حساسة، وضمان عدم تأثيرها على النموذج أو اختراقه. |
35 | 32 |
|
36 | 33 | #### ضوابط الوصول (Access Controls): |
37 | 34 |
|
38 | 35 | #### 1. فرض ضوابط وصول صارمة (Enforce Strict Access Controls) |
39 | | -قيّد الوصول إلى البيانات الحساسة استنادًا إلى مبدأ الحد الأدنى من الامتيازات (Least Privilege). |
40 | | -يجب منح الوصول فقط إلى البيانات التي يحتاجها المستخدم أو العملية المحددة لأداء مهامها. |
41 | | - |
| 36 | +قيّد الوصول إلى البيانات الحساسة استنادًا إلى مبدأ الحد الأدنى من الامتيازات (Least Privilege)، ولا تمنح حق الوصول إلا للبيانات الضرورية للمستخدم أو العملية المحددة. |
42 | 37 | #### 2. تقييد مصادر البيانات (Restrict Data Sources) |
43 | 38 | حدد بدقة مصادر البيانات الخارجية التي يمكن للنموذج الوصول إليها، وتأكد من إدارة تنظيم البيانات أثناء التشغيل (Runtime Data Orchestration) بطريقة آمنة، لتجنب تسرب البيانات غير المقصود. |
44 | 39 |
|
45 | 40 | #### التعلم الاتحادي وتقنيات الخصوصية (Federated Learning and Privacy Techniques): |
46 | 41 |
|
47 | 42 | #### 1. استخدام التعلم الاتحادي (Utilize Federated Learning) |
48 | | -درّب النماذج باستخدام بيانات موزّعة مخزنة عبر عدة خوادم أو أجهزة، بدلاً من تجميع البيانات مركزيًا. |
49 | | -يساهم هذا النهج في تقليل الحاجة إلى جمع البيانات في موقع مركزي ويُخفف من مخاطر تعريض البيانات الحساسة. |
| 43 | +درّب النماذج باستخدام بيانات موزّعة مخزنة عبر عدة خوادم أو أجهزة، بدلاً من تجميع البيانات مركزيًا. يساهم هذا النهج في تقليل الحاجة إلى جمع البيانات في موقع مركزي ويُخفف من مخاطر كشف البيانات الحساسة. |
50 | 44 |
|
51 | 45 | #### 2. دمج الخصوصية التفاضلية (Incorporate Differential Privacy) |
52 | | -طبّق تقنيات تضيف ضوضاء (Noise) إلى البيانات أو المخرجات، مما يصعّب على المهاجمين إعادة بناء بيانات الأفراد بدقة، وبالتالي تعزز حماية الخصوصية. |
| 46 | +طبّق تقنيات تضيف ضوضاء (Noise) إلى البيانات أو المخرجات، مما يصعّب على المهاجمين إجراء هندسة عكسية لنقاط البيانات الفردية. |
53 | 47 |
|
54 | 48 | #### توعية المستخدم والشفافية (User Education and Transparency): |
55 | 49 |
|
|
59 | 53 | #### 2. ضمان الشفافية في استخدام البيانات (Ensure Transparency in Data Usage) |
60 | 54 | ضع سياسات واضحة بشأن الاحتفاظ بالبيانات، واستخدامها، وآليات حذفها. أتح للمستخدمين خيار الانسحاب من استخدام بياناتهم في عمليات تدريب النماذج. |
61 | 55 |
|
| 56 | + |
62 | 57 | #### تهيئة النظام بشكل آمن (Secure System Configuration): |
63 | 58 |
|
64 | 59 | #### 1. إخفاء التهيئة الأولية للنظام (Conceal System Preamble) |
65 | 60 | قيّد قدرة المستخدمين على الوصول إلى إعدادات النظام الأولية أو تعديلها، مما يقلّل من مخاطر كشف التكوينات الداخلية أو تجاوز التعليمات المبدئية. |
66 | 61 | #### 2. الرجوع إلى أفضل الممارسات في التهيئة الأمنية (Reference Security Misconfiguration Best Practices) |
67 | | -اتبع إرشادات موثوقة مثل "OWASP API8:2023 – التهيئة الأمنية غير الصحيحة" لتجنّب تسريب معلومات حساسة من خلال رسائل الخطأ أو تفاصيل التكوين. |
| 62 | +اتبع إرشادات موثوقة مثل "OWASP API8:2023 – التهيئة الأمنية غير الصحيحة (Security Misconfiguration)" لتجنّب تسريب معلومات حساسة من خلال رسائل الخطأ أو تفاصيل التكوين. |
68 | 63 | (رابط مرجعي: OWASP API8:2023 Security Misconfiguration) |
69 | 64 | (Ref. link:[](https://owasp.org/API-Security/editions/2023/en/0xa8-security-misconfiguration/)) |
70 | 65 |
|
71 | 66 | #### التقنيات المتقدمة (Advanced Techniques): |
72 | 67 |
|
73 | 68 | #### 1. التشفير المتماثل أثناء المعالجة (Homomorphic Encryption) |
74 | | -استخدم التشفير المتماثل القابل للمعالجة لتمكين تحليل البيانات بشكل آمن وتعلم آلي يحافظ على الخصوصية. |
75 | | -تضمن هذه التقنية بقاء البيانات في حالة مُشفّرة حتى أثناء المعالجة من قبل النموذج، مما يعزز السرية. |
| 69 | +استخدم التشفير المتماثل القابل للمعالجة لتمكين تحليل البيانات بشكل آمن وتعلم آلي يحافظ على الخصوصية. تضمن هذه التقنية بقاء البيانات في حالة مُشفّرة حتى أثناء المعالجة من قبل النموذج. |
| 70 | + |
76 | 71 | #### 2. الترميز والحجب (Tokenization and Redaction) |
77 | | -طبّق تقنيات الترميز (Tokenization) كمرحلة تمهيدية لتنقية المعلومات الحساسة قبل معالجتها. |
78 | | -يمكن استخدام أدوات مثل مطابقة الأنماط (Pattern Matching) لاكتشاف المحتوى السري وحجبه قبل أن تتم معالجته من قبل النموذج |
79 | | -### أمثلة على سيناريوهات الهجوم |
| 72 | +طبّق تقنيات الترميز (Tokenization) كمرحلة تمهيدية لتنقية المعلومات الحساسة قبل معالجتها. يمكن استخدام أدوات مثل مطابقة الأنماط (Pattern Matching) لاكتشاف المحتوى السري وحجبه قبل أن تتم معالجته من قبل النموذج |
80 | 73 |
|
| 74 | +### سيناريوهات هجوم توضيحية (Example Attack Scenarios) |
81 | 75 |
|
82 | 76 | #### السيناريو #1: كشف غير مقصود للبيانات (Unintentional Data Exposure) |
83 | 77 | يتلقى أحد المستخدمين استجابة تحتوي على بيانات شخصية لمستخدم آخر، نتيجة غياب أو ضعف في آليات تنقية البيانات (Data Sanitization). |
84 | 78 |
|
85 | 79 | #### السيناريو #2: حقن تعليمات مستهدف (Targeted Prompt Injection) |
86 | | -يتمكن مهاجم من تجاوز فلاتر الإدخال لاستخراج معلومات حساسة من النموذج، باستخدام تعليمات مصمّمة بعناية. |
| 80 | +يتمكن مهاجم من تجاوز فلاتر الإدخال لاستخراج معلومات حساسة من النموذج. |
87 | 81 |
|
88 | 82 | #### السيناريو #3: تسريب بيانات من خلال بيانات التدريب (Data Leak via Training Data) |
89 | | -يؤدي الإهمال في اختيار بيانات التدريب إلى تضمين معلومات حساسة، مما يؤدي إلى تسريبها لاحقًا عبر مخرجات النموذج. |
| 83 | +يؤدي الإهمال في اختيار بيانات التدريب إلى الكشف عن معلومات حساسة. |
90 | 84 |
|
91 | 85 | ### روابط مرجعية |
92 | 86 |
|
|
0 commit comments