We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
1 parent e7b3704 commit 7146303Copy full SHA for 7146303
README.md
@@ -0,0 +1,15 @@
1
+### butian_urls
2
+
3
+20200619爬取的补天公益src厂商列表
4
5
+过程中遇到的主要问题就是发现补天好像对爬虫出新策略了?访问频率过快的话,server端会回复一段混淆处理过的JS代码让client端执行并返回执行结果。
6
+ 原理大概就是client如果是浏览器的话自然就解析了JS并发送验证信息,但一般代码处理server回包无法自动解释执行JS,这样就区分了浏览器和爬虫代码。
7
8
+ 网上能找到相应的解决办法:https://blog.csdn.net/qq_36783371/article/details/90760914
9
+ 当然,,,,也能
10
11
+ time.sleep(xxx)..........
12
13
+ 排除超时和异常的项,结果集总共爬到4919项,如下:
14
15
+
upif.py
数据样例.png
136 KB
0 commit comments