Skip to content

Commit 89359aa

Browse files
committed
docs: update README.md
1 parent 0514758 commit 89359aa

File tree

1 file changed

+52
-45
lines changed

1 file changed

+52
-45
lines changed

README.md

Lines changed: 52 additions & 45 deletions
Original file line numberDiff line numberDiff line change
@@ -44,6 +44,9 @@
4444
| 知乎 ||||||||
4545

4646

47+
<details id="pro-version">
48+
<summary>🔗 <strong>🚀 MediaCrawlerPro 重磅发布!更多的功能,更好的架构设计!</strong></summary>
49+
4750
### 🚀 MediaCrawlerPro 重磅发布!
4851

4952
> 专注于学习成熟项目的架构设计,不仅仅是爬虫技术,Pro 版本的代码设计思路同样值得深入学习!
@@ -67,6 +70,7 @@
6770
- [ ] **基于自媒体平台的AI Agent正在开发中 🚀🚀**
6871

6972
点击查看:[MediaCrawlerPro 项目主页](https://github.com/MediaCrawlerPro) 更多介绍
73+
</details>
7074

7175
## 🚀 快速开始
7276

@@ -82,6 +86,52 @@
8286
- **验证安装**:终端输入命令 `uv --version`,如果正常显示版本号,证明已经安装成功
8387
- **推荐理由**:uv 是目前最强的 Python 包管理工具,速度快、依赖解析准确
8488

89+
### 🟢 Node.js 安装
90+
91+
项目依赖 Node.js,请前往官网下载安装:
92+
93+
- **下载地址**https://nodejs.org/en/download/
94+
- **版本要求**:>= 16.0.0
95+
96+
### 📦 Python 包安装
97+
98+
```shell
99+
# 进入项目目录
100+
cd MediaCrawler
101+
102+
# 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性
103+
uv sync
104+
```
105+
106+
### 🌐 浏览器驱动安装
107+
108+
```shell
109+
# 安装浏览器驱动
110+
uv run playwright install
111+
```
112+
113+
> **💡 提示**:MediaCrawler 目前已经支持使用 playwright 连接你本地的 Chrome 浏览器了,一些因为 Webdriver 导致的问题迎刃而解了。
114+
>
115+
> 目前开放了 `xhs``dy` 这两个使用 CDP 的方式连接本地浏览器,如有需要,查看 `config/base_config.py` 中的配置项。
116+
117+
## 🚀 运行爬虫程序
118+
119+
```shell
120+
# 项目默认是没有开启评论爬取模式,如需评论请在 config/base_config.py 中的 ENABLE_GET_COMMENTS 变量修改
121+
# 一些其他支持项,也可以在 config/base_config.py 查看功能,写的有中文注释
122+
123+
# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
124+
uv run main.py --platform xhs --lt qrcode --type search
125+
126+
# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
127+
uv run main.py --platform xhs --lt qrcode --type detail
128+
129+
# 打开对应APP扫二维码登录
130+
131+
# 其他平台爬虫使用示例,执行下面的命令查看
132+
uv run main.py --help
133+
```
134+
85135
<details>
86136
<summary>🔗 <strong>使用 Python 原生 venv 管理环境(不推荐)</strong></summary>
87137

@@ -137,51 +187,6 @@ python main.py --help
137187

138188
</details>
139189

140-
### 🟢 Node.js 安装
141-
142-
项目依赖 Node.js,请前往官网下载安装:
143-
144-
- **下载地址**https://nodejs.org/en/download/
145-
- **版本要求**:>= 16.0.0
146-
147-
### 📦 Python 包安装
148-
149-
```shell
150-
# 进入项目目录
151-
cd MediaCrawler
152-
153-
# 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性
154-
uv sync
155-
```
156-
157-
### 🌐 浏览器驱动安装
158-
159-
```shell
160-
# 安装浏览器驱动
161-
uv run playwright install
162-
```
163-
164-
> **💡 提示**:MediaCrawler 目前已经支持使用 playwright 连接你本地的 Chrome 浏览器了,一些因为 Webdriver 导致的问题迎刃而解了。
165-
>
166-
> 目前开放了 `xhs``dy` 这两个使用 CDP 的方式连接本地浏览器,如有需要,查看 `config/base_config.py` 中的配置项。
167-
168-
## 🚀 运行爬虫程序
169-
170-
```shell
171-
# 项目默认是没有开启评论爬取模式,如需评论请在 config/base_config.py 中的 ENABLE_GET_COMMENTS 变量修改
172-
# 一些其他支持项,也可以在 config/base_config.py 查看功能,写的有中文注释
173-
174-
# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
175-
uv run main.py --platform xhs --lt qrcode --type search
176-
177-
# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
178-
uv run main.py --platform xhs --lt qrcode --type detail
179-
180-
# 打开对应APP扫二维码登录
181-
182-
# 其他平台爬虫使用示例,执行下面的命令查看
183-
uv run main.py --help
184-
```
185190

186191
## 💾 数据保存
187192

@@ -194,6 +199,8 @@ uv run main.py --help
194199

195200
---
196201

202+
[🚀 MediaCrawlerPro 重磅发布 🚀!更多的功能,更好的架构设计!](https://github.com/MediaCrawlerPro)
203+
197204
## 🤝 社区与支持
198205

199206
### 💬 交流群组

0 commit comments

Comments
 (0)