|
1 | | -# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则: |
2 | | -# 1. 不得用于任何商业用途。 |
3 | | -# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。 |
4 | | -# 3. 不得进行大规模爬取或对平台造成运营干扰。 |
5 | | -# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。 |
| 1 | +# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则: |
| 2 | +# 1. 不得用于任何商业用途。 |
| 3 | +# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。 |
| 4 | +# 3. 不得进行大规模爬取或对平台造成运营干扰。 |
| 5 | +# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。 |
6 | 6 | # 5. 不得用于任何非法或不当的用途。 |
7 | | -# |
8 | | -# 详细许可条款请参阅项目根目录下的LICENSE文件。 |
9 | | -# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。 |
| 7 | +# |
| 8 | +# 详细许可条款请参阅项目根目录下的LICENSE文件。 |
| 9 | +# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。 |
10 | 10 |
|
11 | 11 |
|
12 | 12 | # 基础配置 |
13 | 13 | PLATFORM = "xhs" |
14 | | -KEYWORDS = "编程副业,编程兼职" # 关键词搜索配置,以英文逗号分隔 |
| 14 | +KEYWORDS = "编程副业,编程兼职" # 关键词搜索配置,以英文逗号分隔 |
15 | 15 | LOGIN_TYPE = "qrcode" # qrcode or phone or cookie |
16 | 16 | COOKIES = "" |
17 | 17 | # 具体值参见media_platform.xxx.field下的枚举值,暂时只支持小红书 |
18 | 18 | SORT_TYPE = "popularity_descending" |
19 | 19 | # 具体值参见media_platform.xxx.field下的枚举值,暂时只支持抖音 |
20 | 20 | PUBLISH_TIME_TYPE = 0 |
21 | | -CRAWLER_TYPE = "search" # 爬取类型,search(关键词搜索) | detail(帖子详情)| creator(创作者主页数据) |
| 21 | +CRAWLER_TYPE = ( |
| 22 | + "search" # 爬取类型,search(关键词搜索) | detail(帖子详情)| creator(创作者主页数据) |
| 23 | +) |
22 | 24 |
|
23 | 25 | # 是否开启 IP 代理 |
24 | 26 | ENABLE_IP_PROXY = False |
|
63 | 65 | CRAWLER_MAX_COMMENTS_COUNT_SINGLENOTES = 10 |
64 | 66 |
|
65 | 67 |
|
66 | | - |
67 | 68 | # 是否开启爬二级评论模式, 默认不开启爬二级评论 |
68 | 69 | # 老版本项目使用了 db, 则需参考 schema/tables.sql line 287 增加表字段 |
69 | 70 | ENABLE_GET_SUB_COMMENTS = False |
|
85 | 86 | # 指定抖音需要爬取的ID列表 |
86 | 87 | DY_SPECIFIED_ID_LIST = [ |
87 | 88 | "7280854932641664319", |
88 | | - "7202432992642387233" |
| 89 | + "7202432992642387233", |
89 | 90 | # ........................ |
90 | 91 | ] |
91 | 92 |
|
92 | 93 | # 指定快手平台需要爬取的ID列表 |
93 | | -KS_SPECIFIED_ID_LIST = [ |
94 | | - "3xf8enb8dbj6uig", |
95 | | - "3x6zz972bchmvqe" |
96 | | -] |
| 94 | +KS_SPECIFIED_ID_LIST = ["3xf8enb8dbj6uig", "3x6zz972bchmvqe"] |
97 | 95 |
|
98 | 96 | # 指定B站平台需要爬取的视频bvid列表 |
99 | 97 | BILI_SPECIFIED_ID_LIST = [ |
|
116 | 114 | ] |
117 | 115 |
|
118 | 116 | # 指定贴吧需要爬取的帖子列表 |
119 | | -TIEBA_SPECIFIED_ID_LIST = [ |
120 | | - |
121 | | -] |
| 117 | +TIEBA_SPECIFIED_ID_LIST = [] |
122 | 118 |
|
123 | 119 | # 指定贴吧名称列表,爬取该贴吧下的帖子 |
124 | 120 | TIEBA_NAME_LIST = [ |
|
167 | 163 | # 自定义词语及其分组 |
168 | 164 | # 添加规则:xx:yy 其中xx为自定义添加的词组,yy为将xx该词组分到的组名。 |
169 | 165 | CUSTOM_WORDS = { |
170 | | - '零几': '年份', # 将“零几”识别为一个整体 |
171 | | - '高频词': '专业术语' # 示例自定义词 |
| 166 | + "零几": "年份", # 将“零几”识别为一个整体 |
| 167 | + "高频词": "专业术语", # 示例自定义词 |
172 | 168 | } |
173 | 169 |
|
174 | 170 | # 停用(禁用)词文件路径 |
|
0 commit comments