|
10 | 10 |
|
11 | 11 |
|
12 | 12 | # 基础配置 |
13 | | -PLATFORM = "xhs" |
| 13 | +PLATFORM = "xhs" # 平台,xhs | dy | ks | bili | wb | tieba | zhihu |
14 | 14 | KEYWORDS = "编程副业,编程兼职" # 关键词搜索配置,以英文逗号分隔 |
15 | 15 | LOGIN_TYPE = "qrcode" # qrcode or phone or cookie |
16 | 16 | COOKIES = "" |
17 | | -# 具体值参见media_platform.xxx.field下的枚举值,暂时只支持小红书 |
18 | | -SORT_TYPE = "popularity_descending" |
19 | | -# 具体值参见media_platform.xxx.field下的枚举值,暂时只支持抖音 |
20 | | -PUBLISH_TIME_TYPE = 0 |
21 | 17 | CRAWLER_TYPE = ( |
22 | 18 | "search" # 爬取类型,search(关键词搜索) | detail(帖子详情)| creator(创作者主页数据) |
23 | 19 | ) |
24 | | -# 微博搜索类型 default (综合) | real_time (实时) | popular (热门) | video (视频) |
25 | | -WEIBO_SEARCH_TYPE = "popular" |
26 | | -# 自定义User Agent(暂时仅对XHS有效) |
27 | | -UA = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0" |
28 | | - |
29 | 20 | # 是否开启 IP 代理 |
30 | 21 | ENABLE_IP_PROXY = False |
31 | 22 |
|
32 | | -# 未启用代理时的最大爬取间隔,单位秒(暂时仅对XHS有效) |
33 | | -CRAWLER_MAX_SLEEP_SEC = 2 |
34 | | - |
35 | 23 | # 代理IP池数量 |
36 | 24 | IP_PROXY_POOL_COUNT = 2 |
37 | 25 |
|
|
102 | 90 | # 老版本项目使用了 db, 则需参考 schema/tables.sql line 287 增加表字段 |
103 | 91 | ENABLE_GET_SUB_COMMENTS = False |
104 | 92 |
|
105 | | -# 已废弃⚠️⚠️⚠️指定小红书需要爬虫的笔记ID列表 |
106 | | -# 已废弃⚠️⚠️⚠️ 指定笔记ID笔记列表会因为缺少xsec_token和xsec_source参数导致爬取失败 |
107 | | -# XHS_SPECIFIED_ID_LIST = [ |
108 | | -# "66fad51c000000001b0224b8", |
109 | | -# # ........................ |
110 | | -# ] |
111 | | - |
112 | | -# 指定小红书需要爬虫的笔记URL列表, 目前要携带xsec_token和xsec_source参数 |
113 | | -XHS_SPECIFIED_NOTE_URL_LIST = [ |
114 | | - "https://www.xiaohongshu.com/explore/66fad51c000000001b0224b8?xsec_token=AB3rO-QopW5sgrJ41GwN01WCXh6yWPxjSoFI9D5JIMgKw=&xsec_source=pc_search" |
115 | | - # ........................ |
116 | | -] |
117 | | - |
118 | | -# 指定抖音需要爬取的ID列表 |
119 | | -DY_SPECIFIED_ID_LIST = [ |
120 | | - "7280854932641664319", |
121 | | - "7202432992642387233", |
122 | | - # ........................ |
123 | | -] |
124 | | - |
125 | | -# 指定快手平台需要爬取的ID列表 |
126 | | -KS_SPECIFIED_ID_LIST = ["3xf8enb8dbj6uig", "3x6zz972bchmvqe"] |
127 | | - |
128 | | -# 指定B站平台需要爬取的视频bvid列表 |
129 | | -BILI_SPECIFIED_ID_LIST = [ |
130 | | - "BV1d54y1g7db", |
131 | | - "BV1Sz4y1U77N", |
132 | | - "BV14Q4y1n7jz", |
133 | | - # ........................ |
134 | | -] |
135 | | - |
136 | | -# 指定微博平台需要爬取的帖子列表 |
137 | | -WEIBO_SPECIFIED_ID_LIST = [ |
138 | | - "4982041758140155", |
139 | | - # ........................ |
140 | | -] |
141 | | - |
142 | | -# 指定weibo创作者ID列表 |
143 | | -WEIBO_CREATOR_ID_LIST = [ |
144 | | - "5533390220", |
145 | | - # ........................ |
146 | | -] |
147 | | - |
148 | | -# 指定贴吧需要爬取的帖子列表 |
149 | | -TIEBA_SPECIFIED_ID_LIST = [] |
150 | | - |
151 | | -# 指定贴吧名称列表,爬取该贴吧下的帖子 |
152 | | -TIEBA_NAME_LIST = [ |
153 | | - # "盗墓笔记" |
154 | | -] |
155 | | - |
156 | | -# 指定贴吧创作者URL列表 |
157 | | -TIEBA_CREATOR_URL_LIST = [ |
158 | | - "https://tieba.baidu.com/home/main/?id=tb.1.7f139e2e.6CyEwxu3VJruH_-QqpCi6g&fr=frs", |
159 | | - # ........................ |
160 | | -] |
161 | | - |
162 | | -# 指定小红书创作者ID列表 |
163 | | -XHS_CREATOR_ID_LIST = [ |
164 | | - "63e36c9a000000002703502b", |
165 | | - # ........................ |
166 | | -] |
167 | | - |
168 | | -# 指定Dy创作者ID列表(sec_id) |
169 | | -DY_CREATOR_ID_LIST = [ |
170 | | - "MS4wLjABAAAATJPY7LAlaa5X-c8uNdWkvz0jUGgpw4eeXIwu_8BhvqE", |
171 | | - # ........................ |
172 | | -] |
173 | | - |
174 | | -# 指定bili创作者ID列表(sec_id) |
175 | | -BILI_CREATOR_ID_LIST = [ |
176 | | - "20813884", |
177 | | - # ........................ |
178 | | -] |
179 | | - |
180 | | -# 指定快手创作者ID列表 |
181 | | -KS_CREATOR_ID_LIST = [ |
182 | | - "3x4sm73aye7jq7i", |
183 | | - # ........................ |
184 | | -] |
185 | | - |
186 | | - |
187 | | -# 指定知乎创作者主页url列表 |
188 | | -ZHIHU_CREATOR_URL_LIST = [ |
189 | | - "https://www.zhihu.com/people/yd1234567", |
190 | | - # ........................ |
191 | | -] |
192 | | - |
193 | | -# 指定知乎需要爬取的帖子ID列表 |
194 | | -ZHIHU_SPECIFIED_ID_LIST = [ |
195 | | - "https://www.zhihu.com/question/826896610/answer/4885821440", # 回答 |
196 | | - "https://zhuanlan.zhihu.com/p/673461588", # 文章 |
197 | | - "https://www.zhihu.com/zvideo/1539542068422144000", # 视频 |
198 | | -] |
199 | | - |
200 | 93 | # 词云相关 |
201 | 94 | # 是否开启生成评论词云图 |
202 | 95 | ENABLE_GET_WORDCLOUD = False |
|
212 | 105 |
|
213 | 106 | # 中文字体文件路径 |
214 | 107 | FONT_PATH = "./docs/STZHONGS.TTF" |
215 | | - |
216 | | -# 爬取开始的天数,仅支持 bilibili 关键字搜索,YYYY-MM-DD 格式,若为 None 则表示不设置时间范围,按照默认关键字最多返回 1000 条视频的结果处理 |
217 | | -START_DAY = "2024-01-01" |
218 | | - |
219 | | -# 爬取结束的天数,仅支持 bilibili 关键字搜索,YYYY-MM-DD 格式,若为 None 则表示不设置时间范围,按照默认关键字最多返回 1000 条视频的结果处理 |
220 | | -END_DAY = "2024-01-01" |
221 | | - |
222 | | -# 是否开启按每一天进行爬取的选项,仅支持 bilibili 关键字搜索 |
223 | | -# 若为 False,则忽略 START_DAY 与 END_DAY 设置的值 |
224 | | -# 若为 True,则按照 START_DAY 至 END_DAY 按照每一天进行筛选,这样能够突破 1000 条视频的限制,最大程度爬取该关键词下的所有视频 |
225 | | -ALL_DAY = False |
226 | | - |
227 | | -#!!! 下面仅支持 bilibili creator搜索 |
228 | | -# 爬取评论creator主页还是爬取creator动态和关系列表(True为前者) |
229 | | -CREATOR_MODE = True |
230 | | - |
231 | | -# 爬取creator粉丝列表时起始爬取页数 |
232 | | -START_CONTACTS_PAGE = 1 |
233 | | - |
234 | | -# 爬取作者粉丝和关注列表数量控制(单作者) |
235 | | -CRAWLER_MAX_CONTACTS_COUNT_SINGLENOTES = 100 |
236 | | - |
237 | | -# 爬取作者动态数量控制(单作者) |
238 | | -CRAWLER_MAX_DYNAMICS_COUNT_SINGLENOTES = 50 |
0 commit comments