4444| 知乎 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
4545
4646
47+ <details id =" pro-version " >
48+ <summary >🔗 <strong >🚀 MediaCrawlerPro 重磅发布!更多的功能,更好的架构设计!</strong ></summary >
49+
4750### 🚀 MediaCrawlerPro 重磅发布!
4851
4952> 专注于学习成熟项目的架构设计,不仅仅是爬虫技术,Pro 版本的代码设计思路同样值得深入学习!
6770- [ ] ** 基于自媒体平台的AI Agent正在开发中 🚀🚀**
6871
6972点击查看:[ MediaCrawlerPro 项目主页] ( https://github.com/MediaCrawlerPro ) 更多介绍
73+ </details >
7074
7175## 🚀 快速开始
7276
8286- ** 验证安装** :终端输入命令 ` uv --version ` ,如果正常显示版本号,证明已经安装成功
8387- ** 推荐理由** :uv 是目前最强的 Python 包管理工具,速度快、依赖解析准确
8488
89+ ### 🟢 Node.js 安装
90+
91+ 项目依赖 Node.js,请前往官网下载安装:
92+
93+ - ** 下载地址** :https://nodejs.org/en/download/
94+ - ** 版本要求** :>= 16.0.0
95+
96+ ### 📦 Python 包安装
97+
98+ ``` shell
99+ # 进入项目目录
100+ cd MediaCrawler
101+
102+ # 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性
103+ uv sync
104+ ```
105+
106+ ### 🌐 浏览器驱动安装
107+
108+ ``` shell
109+ # 安装浏览器驱动
110+ uv run playwright install
111+ ```
112+
113+ > ** 💡 提示** :MediaCrawler 目前已经支持使用 playwright 连接你本地的 Chrome 浏览器了,一些因为 Webdriver 导致的问题迎刃而解了。
114+ >
115+ > 目前开放了 ` xhs ` 和 ` dy ` 这两个使用 CDP 的方式连接本地浏览器,如有需要,查看 ` config/base_config.py ` 中的配置项。
116+
117+ ## 🚀 运行爬虫程序
118+
119+ ``` shell
120+ # 项目默认是没有开启评论爬取模式,如需评论请在 config/base_config.py 中的 ENABLE_GET_COMMENTS 变量修改
121+ # 一些其他支持项,也可以在 config/base_config.py 查看功能,写的有中文注释
122+
123+ # 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
124+ uv run main.py --platform xhs --lt qrcode --type search
125+
126+ # 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
127+ uv run main.py --platform xhs --lt qrcode --type detail
128+
129+ # 打开对应APP扫二维码登录
130+
131+ # 其他平台爬虫使用示例,执行下面的命令查看
132+ uv run main.py --help
133+ ```
134+
85135<details >
86136<summary >🔗 <strong >使用 Python 原生 venv 管理环境(不推荐)</strong ></summary >
87137
@@ -137,51 +187,6 @@ python main.py --help
137187
138188</details >
139189
140- ### 🟢 Node.js 安装
141-
142- 项目依赖 Node.js,请前往官网下载安装:
143-
144- - ** 下载地址** :https://nodejs.org/en/download/
145- - ** 版本要求** :>= 16.0.0
146-
147- ### 📦 Python 包安装
148-
149- ``` shell
150- # 进入项目目录
151- cd MediaCrawler
152-
153- # 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性
154- uv sync
155- ```
156-
157- ### 🌐 浏览器驱动安装
158-
159- ``` shell
160- # 安装浏览器驱动
161- uv run playwright install
162- ```
163-
164- > ** 💡 提示** :MediaCrawler 目前已经支持使用 playwright 连接你本地的 Chrome 浏览器了,一些因为 Webdriver 导致的问题迎刃而解了。
165- >
166- > 目前开放了 ` xhs ` 和 ` dy ` 这两个使用 CDP 的方式连接本地浏览器,如有需要,查看 ` config/base_config.py ` 中的配置项。
167-
168- ## 🚀 运行爬虫程序
169-
170- ``` shell
171- # 项目默认是没有开启评论爬取模式,如需评论请在 config/base_config.py 中的 ENABLE_GET_COMMENTS 变量修改
172- # 一些其他支持项,也可以在 config/base_config.py 查看功能,写的有中文注释
173-
174- # 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
175- uv run main.py --platform xhs --lt qrcode --type search
176-
177- # 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
178- uv run main.py --platform xhs --lt qrcode --type detail
179-
180- # 打开对应APP扫二维码登录
181-
182- # 其他平台爬虫使用示例,执行下面的命令查看
183- uv run main.py --help
184- ```
185190
186191## 💾 数据保存
187192
@@ -194,6 +199,8 @@ uv run main.py --help
194199
195200---
196201
202+ [ 🚀 MediaCrawlerPro 重磅发布 🚀!更多的功能,更好的架构设计!] ( https://github.com/MediaCrawlerPro )
203+
197204## 🤝 社区与支持
198205
199206### 💬 交流群组
0 commit comments