Skip to content

Commit 102a708

Browse files
4.1 release (#377)
* add: role and purpose setting * add sample for role and purpose fix the no content crawler failed issue for wb and kuaishou * add: custom info extract * fix: kuaishou no search result bug * redefine total search engine solutions * update: test script add: search script * 4.1's coming * fix: silicon logo path
1 parent 42c25fb commit 102a708

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

70 files changed

+2801
-1023
lines changed

.gitignore

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -11,4 +11,5 @@ pb/pocketbase
1111
work_dir
1212
test/webpage_samples/
1313
/docker
14-
work_dir_for_test
14+
work_dir_for_test
15+
pb/pb_migrations/1750399634_created_clients.js

CHANGELOG.md

Lines changed: 27 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,4 +1,30 @@
1-
# v4.0.0
1+
# v4.1
2+
3+
- 通用llm提取支持设定 role 和 purpose,从而实现更加精准的提取
4+
5+
Universal LLM extraction supports setting role and purpose, enabling more precise extraction
6+
7+
- 社交平台信源增加查找创作者详情的功能
8+
9+
Added functionality to search for creator details in social media platform sources
10+
11+
- 增加自定义精准搜索功能(自定义 info 提取字段)
12+
13+
Added custom precision search functionality (custom info extraction fields)
14+
15+
- 可以为关注点指定搜索源,目前支持 bing、github、arxiv、ebay 四个源,并且全部使用平台原生接口,无需额外申请并配置第三方 key
16+
17+
Can specify search sources for focus points, currently supporting four sources: bing, github, arxiv, ebay, all using platform native interfaces without requiring additional third-party key applications and configurations
18+
19+
- 优化的缓存以及缓存遗忘机制
20+
21+
Optimized caching and cache forgetting mechanisms
22+
23+
- 修复快手平台搜索结果为空时的错误处理
24+
25+
Fixed error handling when Kuaishou platform search results are empty
26+
27+
# v4.0
228

329
- 深度重构 Crawl4ai(0.6.3)和 MediaCrawler, 并整合引入 Nodriver,大幅提升获取能力,支持社交平台内容获取(4.0版本提供对微博和快手平台的支持);
430

README.md

Lines changed: 33 additions & 24 deletions
Original file line numberDiff line numberDiff line change
@@ -6,30 +6,38 @@
66

77
我们缺的不是信息,而是从海量信息中过滤噪音,从而让有价值的信息显露出来
88

9-
## 🔥🔥🔥 Wiseflow 4.0 版本正式发布!
10-
119
https://github.com/user-attachments/assets/2c52c010-6ae7-47f4-bc1c-5880c4bd76f3
1210

13-
(在线服务目前因为技术原因,尚未切换到4.0核心,我们正在加速升级中)
11+
## 🔥🔥🔥 Wiseflow 4.1 版本正式发布!
12+
13+
4.1版本在4.0版本基础上又带来了诸多激动人心的新功能!
14+
15+
### 🔍 自定义搜索源
16+
17+
4.1版本支持为关注点精准配置搜索源,目前支持 bing、github、arxiv 和 ebay 四个搜索源,且均使用平台原生接口,无需额外申请第三方服务。
18+
19+
<img src="docs/select_search_source.gif" alt="search_source" width="360">
20+
21+
### 🧠 让 AI 站在你的立场上思考!
1422

15-
在长达三个月的等待后,我们终于迎来了 wiseflow 4.0 版本的正式发布!该版本带来了全新的 4.x 架构,引入了对社交媒体信源的支持,并带来了诸多新特性。
23+
4.1版本支持为 focuspoint 设定角色和目的,从而指导 LLM 以特定视角或目的进行分析和提取。但使用时请注意:
1624

17-
4.x 内置 WIS Crawler(基于 Crawl4ai,MediaCrawler 和 Nodriver 深度重构整合),除网页外,还提供了对社交媒体信源的支持。
25+
- 如果关注点本身指向性很具体,那么角色和目的的设定对结果影响不大;
26+
- 影响最终结果质量的第一要素永远是信源,一定要提供与关注点高度相关的信源。
1827

19-
开源版本提供对微博和快手的支持,后续将通过 **pro 版本** 额外支持:
28+
有关角色和目的设定对提取结果影响的测评案例,请参考 [task1](test/reports/report_v4x_llm/task1)
2029

21-
微信公众号、小红书、抖音、b站、知乎……
30+
### ⚙️ 自定义提取模式
2231

23-
4.x 架构带来的其他新特性包括:
32+
现在你可以在 pb 界面下创建自己的表单,并配置给特定的关注点,LLM 将按照表单字段进行精准提取。
2433

25-
- 全新的架构,混合使用异步和线程池,大大提升处理效率(同时降低内存消耗);
26-
- 继承了 Crawl4ai 0.6.3 版本的 dispacher 能力,提供更精细的内存管理能力;
27-
- 深度整合了 3.9 版本中的 Pre-Process 和 Crawl4ai 的 Markdown Generation流程, 规避了重复处理;
28-
- 优化了对 RSS 信源的支持;
29-
- 优化了代码仓文件结构,更加清晰且符合当代 python 项目规范;
30-
- 改为使用 uv 进行依赖管理,并优化了 requirement.txt 文件;
31-
- 优化了启动脚本(提供提供 windows 版本),真正做到"一键启动";
32-
- 优化配置与部署流程,后台程序不再依赖 pocketbase 服务,因此无需在 .env 中提供 pocketbase 的账密,也不限定 pocketbase 的版本。
34+
### 👥 社交平台信源支持创作者查找模式
35+
36+
现在可以指定程序按关注点在社交平台上查找相关内容,并进一步查找内容的创作者主页信息。结合"自定义提取模式",wiseflow可以帮助你在全网搜索潜在客户、合作伙伴或者投资人的联系方式。
37+
38+
<img src="docs/find_person_by_wiseflow.png" alt="find_person_by_wiseflow" width="720">
39+
40+
**有关 4.1 版本的更多更新信息,详见 [CHANGELOG](CHANGELOG.md)**
3341

3442
## 🧐 'deep search' VS 'wide search'
3543

@@ -39,9 +47,9 @@ https://github.com/user-attachments/assets/2c52c010-6ae7-47f4-bc1c-5880c4bd76f3
3947

4048
## ✋ What makes wiseflow different from other ai-powered crawlers?
4149

42-
- 全平台的获取能力,包括网页、社交媒体(目前提供对微博和快手平台的支持)、RSS 信源、搜索引擎等
50+
- 全平台的获取能力,包括网页、社交媒体(目前提供对微博和快手平台的支持)、RSS 信源、bing、github、arxiv、ebay 等
4351
- 独特的 html 处理流程,自动按关注点提取信息并发现值得进一步探索的链接,且仅需 14b 参数量的大模型即可很好的工作;
44-
- 面向普通用户(而非开发者),无需人工介入提供 Xpath,"开箱即用";
52+
- 面向普通用户(而非开发者),无需人工介入提供 Xpath,"开箱即用";
4553
- 持续迭代带来的高稳定性和高可用性,以及兼顾系统资源和速度的处理效率;
4654
- 将不仅仅是“爬虫”……
4755

@@ -76,7 +84,6 @@ git clone https://github.com/TeamWiseFlow/wiseflow.git
7684

7785
- LLM_API_KEY="" # LLM 服务的 key (任何提供 OpenAI 格式 API 的模型服务商均可,本地使用 ollama 部署则无需设置)
7886
- LLM_API_BASE="https://api.siliconflow.cn/v1" # LLM 服务接口地址
79-
- JINA_API_KEY="" # 搜索引擎服务的 key (推荐 Jina,个人使用甚至无需注册即可申请)
8087
- PRIMARY_MODEL=Qwen/Qwen3-14B # 推荐 Qwen3-14B 或同量级思考模型
8188
- VL_MODEL=Pro/Qwen/Qwen2.5-VL-7B-Instruct # better to have
8289

@@ -102,10 +109,9 @@ wiseflow 所有抓取数据都会即时存入 pocketbase,因此您可以直接
102109

103110
PocketBase作为流行的轻量级数据库,目前已有 Go/Javascript/Python 等语言的SDK。
104111

105-
在线服务也即将推出 sync api,支持将在线抓取结果同步本地,用于构建"动态知识库"等,敬请关注:
112+
欢迎在如下 repo 中分享并推广您的二次开发应用案例!
106113

107-
- 在线体验地址:https://www.aiqingbaoguan.com/
108-
- 在线服务 API 使用案例:https://github.com/TeamWiseFlow/wiseflow_plus
114+
- https://github.com/TeamWiseFlow/wiseflow_plus
109115

110116

111117
## 🛡️ 许可协议
@@ -127,8 +133,7 @@ PocketBase作为流行的轻量级数据库,目前已有 Go/Javascript/Python
127133
- NoDriver(Providing a blazing fast framework for web automation, webscraping, bots and any other creative ideas...) https://github.com/ultrafunkamsterdam/nodriver
128134
- Pocketbase(Open Source realtime backend in 1 file) https://github.com/pocketbase/pocketbase
129135
- Feedparser(Parse feeds in Python) https://github.com/kurtmckee/feedparser
130-
131-
本项目开发受 [GNE](https://github.com/GeneralNewsExtractor/GeneralNewsExtractor)[AutoCrawler](https://github.com/kingname/AutoCrawler)[SeeAct](https://github.com/OSU-NLP-Group/SeeAct) 启发。
136+
- SearXNG(a free internet metasearch engine which aggregates results from various search services and databases) https://github.com/searxng/searxng
132137

133138
## Citation
134139

@@ -139,3 +144,7 @@ Author:Wiseflow Team
139144
https://github.com/TeamWiseFlow/wiseflow
140145
Licensed under Apache2.0
141146
```
147+
148+
## 友情链接
149+
150+
[<img src="docs/logos/SiliconFlow.png" alt="siliconflow" width="360">](https://siliconflow.com/)

README_AR.md

Lines changed: 38 additions & 25 deletions
Original file line numberDiff line numberDiff line change
@@ -6,30 +6,42 @@
66

77
المشكلة ليست في نقص المعلومات، بل في كيفية تصفية الضوضاء من المعلومات الهائلة للكشف عن المعلومات القيمة
88

9-
## 🔥🔥🔥 الإصدار 4.0 من Wiseflow متوفر الآن!
10-
119
https://github.com/user-attachments/assets/2c52c010-6ae7-47f4-bc1c-5880c4bd76f3
1210

13-
(الخدمة عبر الإنترنت غير متوفرة حالياً بسبب أسباب تقنية، نحن نعمل على تسريع الترقية)
11+
## 🔥🔥🔥 تم إطلاق إصدار Wiseflow 4.1 رسميًا!
12+
13+
يقدم الإصدار 4.1 العديد من الميزات الجديدة والمثيرة بالإضافة إلى الإصدار 4.0!
14+
15+
### 🔍 مصادر بحث مخصصة
16+
17+
يدعم الإصدار 4.1 التكوين الدقيق لمصادر البحث لنقاط التركيز. وهو يدعم حاليًا أربعة مصادر بحث: bing و github و arxiv و ebay ، وكلها تستخدم واجهات برمجة تطبيقات أصلية للمنصة دون الحاجة إلى خدمات جهات خارجية إضافية.
18+
19+
<img src="docs/select_search_source.gif" alt="search_source" width="360">
20+
21+
22+
### 🧠 دع الذكاء الاصطناعي يفكر من وجهة نظرك!
23+
24+
يدعم الإصدار 4.1 تعيين الأدوار والأهداف لنقاط التركيز لتوجيه LLM في تحليل واستخراج المعلومات من منظور معين أو لغرض معين. ومع ذلك ، يرجى ملاحظة ما يلي:
25+
26+
- إذا كانت نقطة التركيز نفسها محددة للغاية ، فلن يكون لتعيين الأدوار والأهداف تأثير يذكر على النتائج.
27+
- العامل الأكثر أهمية الذي يؤثر على جودة النتائج النهائية هو دائمًا مصدر المعلومات. تأكد من توفير مصادر وثيقة الصلة بنقطة التركيز.
1428

15-
بعد انتظار دام ثلاثة أشهر، نحن سعداء بإطلاق الإصدار 4.0 من Wiseflow! هذا الإصدار يجلب هيكلية جديدة 4.x، مع دعم لمنصات التواصل الاجتماعي وميزات جديدة متعددة.
29+
لحالات الاختبار حول كيفية تأثير تحديد الأدوار والأهداف على نتائج الاستخراج ، يرجى الرجوع إلى [task1](test/reports/report_v4x_llm/task1).
1630

17-
الإصدار 4.x يتضمن WIS Crawler (مبني على Crawl4ai و MediaCrawler و Nodriver)، ويوفر دعمًا لصفحات الويب ومصادر الوسائط الاجتماعية.
1831

19-
النسخة مفتوحة المصدر توفر دعمًا لـ Weibo و Kuaishou، مع دعم **النسخة الاحترافية** بالإضافة إلى ذلك لـ:
32+
### ⚙️ وضع الاستخراج المخصص
2033

21-
WeChat Official Accounts و Xiaohongshu و Douyin و Bilibili و Zhihu...
34+
يمكنك الآن إنشاء النماذج الخاصة بك في واجهة pb وتكوينها لنقاط تركيز محددة. سيقوم LLM بعد ذلك باستخراج المعلومات بدقة وفقًا لحقول النموذج.
2235

23-
ميزات جديدة أخرى في هيكلية 4.x تشمل:
2436

25-
- هيكلية جديدة تستخدم المزامنة وخيوط المعالجة بشكل مختلط، مما يرفع كفاءة المعالجة (مع تقليل استهلاك الذاكرة)؛
26-
- ورث قدرات dispatcher من Crawl4ai 0.6.3، مما يوفر إدارة ذاكرة أكثر دقة؛
27-
- دمج عميق بين Pre-Process من الإصدار 3.9 و Markdown Generation من Crawl4ai، مما يمنع المعالجة المكررة؛
28-
- تحسين دعم مصادر RSS؛
29-
- تحسين هيكل ملفات المشروع، أكثر وضوحاً ومتوافقاً مع معايير مشاريع Python المعاصرة؛
30-
- استخدام uv لإدارة التبعيات، وتحسين ملف requirement.txt؛
31-
- تحسين سكريبتات التشغيل (مع دعم Windows)، مما يجعل "التشغيل بنقرة واحدة" حقيقة؛
32-
- تحسين عملية التكوين والنشر، البرنامج الخلفي لم يعد يعتمد على خدمة pocketbase، لذلك لا حاجة لتوفير بيانات اعتماد pocketbase في ملف .env، ولا يوجد قيود على إصدار pocketbase.
37+
### 👥 وضع البحث عن المبدعين لمصادر الوسائط الاجتماعية
38+
39+
يمكنك الآن تحديد البرنامج للعثور على محتوى ذي صلة على منصات الوسائط الاجتماعية بناءً على نقاط التركيز ، والعثور أيضًا على معلومات الصفحة الرئيسية لمنشئي المحتوى. بالاقتران مع "وضع الاستخراج المخصص" ، يمكن أن يساعدك wiseflow في البحث عن معلومات الاتصال بالعملاء المحتملين أو الشركاء أو المستثمرين عبر الشبكة بأكملها.
40+
41+
<img src="docs/find_person_by_wiseflow.png" alt="find_person_by_wiseflow" width="720">
42+
43+
44+
**لمزيد من المعلومات حول التحديثات في الإصدار 4.1 ، يرجى مراجعة [CHANGELOG](CHANGELOG.md)**
3345

3446
## 🧐 'البحث العميق' مقابل 'البحث الواسع'
3547

@@ -39,7 +51,7 @@ WeChat Official Accounts و Xiaohongshu و Douyin و Bilibili و Zhihu...
3951

4052
## ✋ ما الذي يجعل Wiseflow مختلفاً عن برامج الزحف المدعومة بالذكاء الاصطناعي الأخرى؟
4153

42-
- قدرات الحصول على البيانات من جميع المنصات، بما في ذلك صفحات الويب، ووسائل التواصل الاجتماعي (تدعم حاليًا منصتي Weibo و Kuaishou)، ومصادر RSS، ومحركات البحث، إلخ.؛
54+
- قدرات الحصول على البيانات من جميع المنصات، بما في ذلك صفحات الويب، ووسائل التواصل الاجتماعي (حالياً تدعم منصتي Weibo و Kuaishou)، ومصادر RSS، بالإضافة إلى مصادر البحث مثل Bing و GitHub و arXiv و eBay، إلخ؛
4355
- سير عمل فريد لمعالجة HTML يقوم تلقائيًا باستخراج المعلومات بناءً على نقاط التركيز ويكتشف الروابط التي تستحق المزيد من الاستكشاف، ويعمل بشكل جيد مع نموذج لغوي كبير بحجم 14 مليار معلمة فقط؛
4456
- سهل الاستخدام (ليس فقط للمطورين)، لا حاجة لتكوين Xpath يدويًا، "جاهز للاستخدام"؛
4557
- استقرار وتوافرية عالية من خلال التكرار المستمر، وكفاءة معالجة توازن بين موارد النظام والسرعة؛
@@ -75,8 +87,7 @@ git clone https://github.com/TeamWiseFlow/wiseflow.git
7587
الإصدار 4.x لا يتطلب من المستخدم توفير بيانات اعتماد pocketbase في ملف .env، ولا يحد من إصدار pocketbase. كما ألغينا مؤقتاً إعداد Secondary Model، لذلك تحتاج فقط إلى أربعة معلمات أساسية:
7688

7789
- LLM_API_KEY="" # مفتاح خدمة LLM (يمكن استخدام أي مزود خدمة يوفر واجهة برمجة تطبيقات بتنسيق OpenAI، لا حاجة للإعداد عند استخدام ollama محلياً)
78-
- LLM_API_BASE="https://api.siliconflow.cn/v1" # عنوان واجهة خدمة LLM
79-
- JINA_API_KEY="" # مفتاح خدمة محرك البحث (نوصي بـ Jina، يمكن حتى للمستخدمين الشخصيين التقديم دون تسجيل)
90+
- LLM_API_BASE="https://api.siliconflow.com/v1" # عنوان واجهة خدمة LLM
8091
- PRIMARY_MODEL="Qwen/Qwen3-14B" # نوصي بـ Qwen3-14B أو نموذج تفكير بنفس المستوى
8192
- VL_MODEL="Pro/Qwen/Qwen2.5-VL-7B-Instruct" # من الأفضل وجوده
8293

@@ -102,10 +113,9 @@ chmod +x run.sh # فقط يحتاج إلى التنفيذ في المرة الأ
102113

103114
PocketBase كقاعدة بيانات خفيفة الوزن شائعة الاستخدام، يتوفر حالياً SDK بلغات Go/Javascript/Python وغيرها.
104115

105-
ستقوم الخدمة عبر الإنترنت قريباً بإطلاق sync api، لدعم مزامنة نتائج الزحف عبر الإنترنت محلياً، لبناء "قاعدة معرفة ديناميكية" وغيرها، ابقوا على اطلاع:
116+
نرحب بمشاركة وترويج أمثلة تطبيقات التطوير الثانوية الخاصة بك في المستودع التالي!
106117

107-
- عنوان الخدمة عبر الإنترنت: https://www.aiqingbaoguan.com/
108-
- أمثلة استخدام API للخدمة عبر الإنترنت: https://github.com/TeamWiseFlow/wiseflow_plus
118+
- https://github.com/TeamWiseFlow/wiseflow_plus
109119

110120

111121
## 🛡️ الترخيص
@@ -127,8 +137,7 @@ PocketBase كقاعدة بيانات خفيفة الوزن شائعة الاست
127137
- NoDriver (Providing a blazing fast framework for web automation, webscraping, bots and any other creative ideas...) https://github.com/ultrafunkamsterdam/nodriver
128138
- Pocketbase (Open Source realtime backend in 1 file) https://github.com/pocketbase/pocketbase
129139
- Feedparser (Parse feeds in Python) https://github.com/kurtmckee/feedparser
130-
131-
تأثر تطوير هذا المشروع بـ [GNE](https://github.com/GeneralNewsExtractor/GeneralNewsExtractor) و [AutoCrawler](https://github.com/kingname/AutoCrawler) و [SeeAct](https://github.com/OSU-NLP-Group/SeeAct).
140+
- SearXNG(a free internet metasearch engine which aggregates results from various search services and databases) https://github.com/searxng/searxng
132141

133142
## الاقتباس
134143

@@ -138,4 +147,8 @@ PocketBase كقاعدة بيانات خفيفة الوزن شائعة الاست
138147
Author:Wiseflow Team
139148
https://github.com/TeamWiseFlow/wiseflow
140149
Licensed under Apache2.0
141-
```
150+
```
151+
152+
## روابط صديقة
153+
154+
[<img src="docs/logos/SiliconFlow.png" alt="siliconflow" width="360">](https://siliconflow.com/)

0 commit comments

Comments
 (0)