You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
* add: role and purpose setting
* add sample for role and purpose
fix the no content crawler failed issue for wb and kuaishou
* add: custom info extract
* fix: kuaishou no search result bug
* redefine total search engine solutions
* update: test script
add: search script
* 4.1's coming
* fix: silicon logo path
Can specify search sources for focus points, currently supporting four sources: bing, github, arxiv, ebay, all using platform native interfaces without requiring additional third-party key applications and configurations
18
+
19
+
- 优化的缓存以及缓存遗忘机制
20
+
21
+
Optimized caching and cache forgetting mechanisms
22
+
23
+
- 修复快手平台搜索结果为空时的错误处理
24
+
25
+
Fixed error handling when Kuaishou platform search results are empty
- NoDriver(Providing a blazing fast framework for web automation, webscraping, bots and any other creative ideas...) https://github.com/ultrafunkamsterdam/nodriver
128
134
- Pocketbase(Open Source realtime backend in 1 file) https://github.com/pocketbase/pocketbase
129
135
- Feedparser(Parse feeds in Python) https://github.com/kurtmckee/feedparser
(الخدمة عبر الإنترنت غير متوفرة حالياً بسبب أسباب تقنية، نحن نعمل على تسريع الترقية)
11
+
## 🔥🔥🔥 تم إطلاق إصدار Wiseflow 4.1 رسميًا!
12
+
13
+
يقدم الإصدار 4.1 العديد من الميزات الجديدة والمثيرة بالإضافة إلى الإصدار 4.0!
14
+
15
+
### 🔍 مصادر بحث مخصصة
16
+
17
+
يدعم الإصدار 4.1 التكوين الدقيق لمصادر البحث لنقاط التركيز. وهو يدعم حاليًا أربعة مصادر بحث: bing و github و arxiv و ebay ، وكلها تستخدم واجهات برمجة تطبيقات أصلية للمنصة دون الحاجة إلى خدمات جهات خارجية إضافية.
يدعم الإصدار 4.1 تعيين الأدوار والأهداف لنقاط التركيز لتوجيه LLM في تحليل واستخراج المعلومات من منظور معين أو لغرض معين. ومع ذلك ، يرجى ملاحظة ما يلي:
25
+
26
+
- إذا كانت نقطة التركيز نفسها محددة للغاية ، فلن يكون لتعيين الأدوار والأهداف تأثير يذكر على النتائج.
27
+
- العامل الأكثر أهمية الذي يؤثر على جودة النتائج النهائية هو دائمًا مصدر المعلومات. تأكد من توفير مصادر وثيقة الصلة بنقطة التركيز.
14
28
15
-
بعد انتظار دام ثلاثة أشهر، نحن سعداء بإطلاق الإصدار 4.0 من Wiseflow! هذا الإصدار يجلب هيكلية جديدة 4.x، مع دعم لمنصات التواصل الاجتماعي وميزات جديدة متعددة.
29
+
لحالات الاختبار حول كيفية تأثير تحديد الأدوار والأهداف على نتائج الاستخراج ، يرجى الرجوع إلى [task1](test/reports/report_v4x_llm/task1).
16
30
17
-
الإصدار 4.x يتضمن WIS Crawler (مبني على Crawl4ai و MediaCrawler و Nodriver)، ويوفر دعمًا لصفحات الويب ومصادر الوسائط الاجتماعية.
18
31
19
-
النسخة مفتوحة المصدر توفر دعمًا لـ Weibo و Kuaishou، مع دعم **النسخة الاحترافية** بالإضافة إلى ذلك لـ:
32
+
### ⚙️ وضع الاستخراج المخصص
20
33
21
-
WeChat Official Accounts و Xiaohongshu و Douyin و Bilibili و Zhihu...
34
+
يمكنك الآن إنشاء النماذج الخاصة بك في واجهة pb وتكوينها لنقاط تركيز محددة. سيقوم LLM بعد ذلك باستخراج المعلومات بدقة وفقًا لحقول النموذج.
22
35
23
-
ميزات جديدة أخرى في هيكلية 4.x تشمل:
24
36
25
-
- هيكلية جديدة تستخدم المزامنة وخيوط المعالجة بشكل مختلط، مما يرفع كفاءة المعالجة (مع تقليل استهلاك الذاكرة)؛
26
-
- ورث قدرات dispatcher من Crawl4ai 0.6.3، مما يوفر إدارة ذاكرة أكثر دقة؛
27
-
- دمج عميق بين Pre-Process من الإصدار 3.9 و Markdown Generation من Crawl4ai، مما يمنع المعالجة المكررة؛
28
-
- تحسين دعم مصادر RSS؛
29
-
- تحسين هيكل ملفات المشروع، أكثر وضوحاً ومتوافقاً مع معايير مشاريع Python المعاصرة؛
30
-
- استخدام uv لإدارة التبعيات، وتحسين ملف requirement.txt؛
31
-
- تحسين سكريبتات التشغيل (مع دعم Windows)، مما يجعل "التشغيل بنقرة واحدة" حقيقة؛
32
-
- تحسين عملية التكوين والنشر، البرنامج الخلفي لم يعد يعتمد على خدمة pocketbase، لذلك لا حاجة لتوفير بيانات اعتماد pocketbase في ملف .env، ولا يوجد قيود على إصدار pocketbase.
37
+
### 👥 وضع البحث عن المبدعين لمصادر الوسائط الاجتماعية
38
+
39
+
يمكنك الآن تحديد البرنامج للعثور على محتوى ذي صلة على منصات الوسائط الاجتماعية بناءً على نقاط التركيز ، والعثور أيضًا على معلومات الصفحة الرئيسية لمنشئي المحتوى. بالاقتران مع "وضع الاستخراج المخصص" ، يمكن أن يساعدك wiseflow في البحث عن معلومات الاتصال بالعملاء المحتملين أو الشركاء أو المستثمرين عبر الشبكة بأكملها.
**لمزيد من المعلومات حول التحديثات في الإصدار 4.1 ، يرجى مراجعة [CHANGELOG](CHANGELOG.md)**
33
45
34
46
## 🧐 'البحث العميق' مقابل 'البحث الواسع'
35
47
@@ -39,7 +51,7 @@ WeChat Official Accounts و Xiaohongshu و Douyin و Bilibili و Zhihu...
39
51
40
52
## ✋ ما الذي يجعل Wiseflow مختلفاً عن برامج الزحف المدعومة بالذكاء الاصطناعي الأخرى؟
41
53
42
-
- قدرات الحصول على البيانات من جميع المنصات، بما في ذلك صفحات الويب، ووسائل التواصل الاجتماعي (تدعم حاليًا منصتي Weibo و Kuaishou)، ومصادر RSS، ومحركات البحث، إلخ.؛
54
+
- قدرات الحصول على البيانات من جميع المنصات، بما في ذلك صفحات الويب، ووسائل التواصل الاجتماعي (حالياً تدعم منصتي Weibo و Kuaishou)، ومصادر RSS، بالإضافة إلى مصادر البحث مثل Bing و GitHub و arXiv و eBay، إلخ؛
43
55
- سير عمل فريد لمعالجة HTML يقوم تلقائيًا باستخراج المعلومات بناءً على نقاط التركيز ويكتشف الروابط التي تستحق المزيد من الاستكشاف، ويعمل بشكل جيد مع نموذج لغوي كبير بحجم 14 مليار معلمة فقط؛
44
56
- سهل الاستخدام (ليس فقط للمطورين)، لا حاجة لتكوين Xpath يدويًا، "جاهز للاستخدام"؛
45
57
- استقرار وتوافرية عالية من خلال التكرار المستمر، وكفاءة معالجة توازن بين موارد النظام والسرعة؛
الإصدار 4.x لا يتطلب من المستخدم توفير بيانات اعتماد pocketbase في ملف .env، ولا يحد من إصدار pocketbase. كما ألغينا مؤقتاً إعداد Secondary Model، لذلك تحتاج فقط إلى أربعة معلمات أساسية:
76
88
77
89
- LLM_API_KEY="" # مفتاح خدمة LLM (يمكن استخدام أي مزود خدمة يوفر واجهة برمجة تطبيقات بتنسيق OpenAI، لا حاجة للإعداد عند استخدام ollama محلياً)
78
-
- LLM_API_BASE="https://api.siliconflow.cn/v1" # عنوان واجهة خدمة LLM
79
-
- JINA_API_KEY="" # مفتاح خدمة محرك البحث (نوصي بـ Jina، يمكن حتى للمستخدمين الشخصيين التقديم دون تسجيل)
90
+
- LLM_API_BASE="https://api.siliconflow.com/v1" # عنوان واجهة خدمة LLM
80
91
- PRIMARY_MODEL="Qwen/Qwen3-14B" # نوصي بـ Qwen3-14B أو نموذج تفكير بنفس المستوى
81
92
- VL_MODEL="Pro/Qwen/Qwen2.5-VL-7B-Instruct" # من الأفضل وجوده
82
93
@@ -102,10 +113,9 @@ chmod +x run.sh # فقط يحتاج إلى التنفيذ في المرة الأ
102
113
103
114
PocketBase كقاعدة بيانات خفيفة الوزن شائعة الاستخدام، يتوفر حالياً SDK بلغات Go/Javascript/Python وغيرها.
104
115
105
-
ستقوم الخدمة عبر الإنترنت قريباً بإطلاق sync api، لدعم مزامنة نتائج الزحف عبر الإنترنت محلياً، لبناء "قاعدة معرفة ديناميكية" وغيرها، ابقوا على اطلاع:
116
+
نرحب بمشاركة وترويج أمثلة تطبيقات التطوير الثانوية الخاصة بك في المستودع التالي!
106
117
107
-
- عنوان الخدمة عبر الإنترنت: https://www.aiqingbaoguan.com/
108
-
- أمثلة استخدام API للخدمة عبر الإنترنت: https://github.com/TeamWiseFlow/wiseflow_plus
- NoDriver (Providing a blazing fast framework for web automation, webscraping, bots and any other creative ideas...) https://github.com/ultrafunkamsterdam/nodriver
128
138
- Pocketbase (Open Source realtime backend in 1 file) https://github.com/pocketbase/pocketbase
129
139
- Feedparser (Parse feeds in Python) https://github.com/kurtmckee/feedparser
130
-
131
-
تأثر تطوير هذا المشروع بـ [GNE](https://github.com/GeneralNewsExtractor/GeneralNewsExtractor) و [AutoCrawler](https://github.com/kingname/AutoCrawler) و [SeeAct](https://github.com/OSU-NLP-Group/SeeAct).
140
+
- SearXNG(a free internet metasearch engine which aggregates results from various search services and databases) https://github.com/searxng/searxng
0 commit comments