|
2 | 2 |
|
3 | 3 | ### الوصف |
4 | 4 |
|
5 | | -يمكن أن تؤثر المعلومات الحساسة على كل من نموذج اللغة الكبير (LLM) وسياق التطبيق الذي يُستخدم فيه.وتشمل هذه المعلومات: البيانات الشخصية المُعرِّفة (PII)، التفاصيل المالية، السجلات الصحية، بيانات الأعمال السرّية، بيانات الاعتماد الأمنية، والمستندات القانونية. كما قد تحتوي النماذج المملوكة (Proprietary Models) على أساليب تدريب فريدة أو شيفرة مصدر تُعد معلومات حساسة، خاصة في حالة النماذج المغلقة أو النماذج الأساسية (Foundation Models). |
| 5 | +يمكن أن تؤثر المعلومات الحساسة على كل من نموذج اللغة الكبير (LLM) وسياق التطبيق الذي يُستخدم فيه.وتشمل هذه المعلومات: المعلومات الشخصية المُعَرِّفة (PII)، التفاصيل المالية، السجلات الصحية، بيانات الأعمال السرّية، بيانات الاعتماد الأمنية، والمستندات القانونية. كما قد تحتوي النماذج المملوكة (Proprietary Models) على أساليب تدريب فريدة أو شيفرة مصدر تُعد معلومات حساسة، خاصة في حالة النماذج المغلقة أو النماذج الأساسية (Foundation Models). |
6 | 6 |
|
7 | 7 | تواجه نماذج اللغة الكبيرة (LLMs)، خاصة عند تضمينها داخل التطبيقات، مخاطر كشف بيانات حساسة أو خوارزميات مملوكة أو تفاصيل سرّية من خلال مخرجاتها. وقد يؤدي ذلك إلى وصول غير مصرح به للمعلومات، وانتهاكات للخصوصية، وتسريبات لحقوق الملكية الفكرية. يجب على المستخدمين أن يكونوا على دراية بكيفية التفاعل الآمن مع هذه النماذج، وأن يفهموا المخاطر المرتبطة بتقديم بيانات حساسة عن غير قصد، والتي قد يتم الكشف عنها لاحقًا في مخرجات النموذج. |
8 | 8 |
|
9 | | -ولتقليل هذا الخطر، ينبغي على تطبيقات LLM أن تُجري عمليات تنظيف ومعالجة مناسبة للبيانات (Data Sanitization) لمنع دخول بيانات المستخدم إلى النموذج أثناء التدريب. كما ينبغي على مالكي التطبيقات توفير سياسات واضحة لشروط الاستخدام (Terms of Use)، تتيح للمستخدمين خيار الانسحاب من استخدام بياناتهم في التدريب. ويمكن أن يُسهم تضمين قيود داخل التعليمات النظامية (System Prompt) توضح أنواع البيانات التي يُسمح للنموذج بإرجاعها في الحد من خطر الكشف عن معلومات حساسة، إلا أن هذه القيود قد لا تُحترم دائمًا، وقد يتم تجاوزها عبر حقن التعليمات (Prompt Injection) أو وسائل أخرى. |
| 9 | +ولتقليل هذا الخطر، ينبغي على تطبيقات LLM أن تُجري عمليات تنظيف ومعالجة مناسبة للبيانات (Data Sanitization) لمنع دخول بيانات المستخدم إلى النموذج أثناء التدريب. |
| 10 | + |
| 11 | +كما ينبغي على مالكي التطبيقات توفير سياسات واضحة لشروط الاستخدام (Terms of Use)، تتيح للمستخدمين خيار الانسحاب من استخدام بياناتهم في التدريب. ويمكن أن يُسهم تضمين قيود داخل التعليمات النظامية (System Prompt) توضح أنواع البيانات التي يُسمح للنموذج بإرجاعها في الحد من خطر الكشف عن معلومات حساسة، إلا أن هذه القيود قد لا تُحترم دائمًا، وقد يتم تجاوزها عبر حقن التعليمات (Prompt Injection) أو وسائل أخرى. |
10 | 12 |
|
11 | 13 | ### أمثلة شائعة على الثغرات |
12 | 14 |
|
|
52 | 54 | #### توعية المستخدم والشفافية (User Education and Transparency): |
53 | 55 |
|
54 | 56 | #### 1. توعية المستخدمين بكيفية استخدام نماذج اللغة بأمان (Educate Users on Safe LLM Usage) |
55 | | -قدّم إرشادات توضح أهمية تجنّب إدخال المعلومات الحساسة. |
56 | | -وفّر تدريبًا على أفضل الممارسات للتفاعل الآمن مع نماذج اللغة الكبيرة (LLMs). |
| 57 | +قدّم إرشادات توضح أهمية تجنّب إدخال المعلومات الحساسة. وفّر تدريبًا على أفضل الممارسات للتفاعل الآمن مع نماذج اللغة الكبيرة (LLMs). |
57 | 58 |
|
58 | 59 | #### 2. ضمان الشفافية في استخدام البيانات (Ensure Transparency in Data Usage) |
59 | | -ضع سياسات واضحة بشأن الاحتفاظ بالبيانات، واستخدامها، وآليات حذفها. |
60 | | -أتح للمستخدمين خيار الانسحاب من استخدام بياناتهم في عمليات تدريب النماذج. |
| 60 | +ضع سياسات واضحة بشأن الاحتفاظ بالبيانات، واستخدامها، وآليات حذفها. أتح للمستخدمين خيار الانسحاب من استخدام بياناتهم في عمليات تدريب النماذج. |
61 | 61 |
|
62 | 62 | #### تهيئة النظام بشكل آمن (Secure System Configuration): |
63 | 63 |
|
|
76 | 76 | #### 2. الترميز والحجب (Tokenization and Redaction) |
77 | 77 | طبّق تقنيات الترميز (Tokenization) كمرحلة تمهيدية لتنقية المعلومات الحساسة قبل معالجتها. |
78 | 78 | يمكن استخدام أدوات مثل مطابقة الأنماط (Pattern Matching) لاكتشاف المحتوى السري وحجبه قبل أن تتم معالجته من قبل النموذج |
79 | | -### سيناريوهات هجوم توضيحية (Example Attack Scenarios) |
| 79 | +### أمثلة على سيناريوهات الهجوم |
| 80 | + |
80 | 81 |
|
81 | 82 | #### السيناريو #1: كشف غير مقصود للبيانات (Unintentional Data Exposure) |
82 | 83 | يتلقى أحد المستخدمين استجابة تحتوي على بيانات شخصية لمستخدم آخر، نتيجة غياب أو ضعف في آليات تنقية البيانات (Data Sanitization). |
|
0 commit comments