Skip to content

Commit 7146303

Browse files
committed
add README and pic
1 parent e7b3704 commit 7146303

File tree

3 files changed

+15
-0
lines changed

3 files changed

+15
-0
lines changed

README.md

Lines changed: 15 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,15 @@
1+
### butian_urls
2+
3+
20200619爬取的补天公益src厂商列表
4+
5+
过程中遇到的主要问题就是发现补天好像对爬虫出新策略了?访问频率过快的话,server端会回复一段混淆处理过的JS代码让client端执行并返回执行结果。
6+
原理大概就是client如果是浏览器的话自然就解析了JS并发送验证信息,但一般代码处理server回包无法自动解释执行JS,这样就区分了浏览器和爬虫代码。
7+
8+
网上能找到相应的解决办法:https://blog.csdn.net/qq_36783371/article/details/90760914
9+
当然,,,,也能
10+
11+
time.sleep(xxx)..........
12+
13+
排除超时和异常的项,结果集总共爬到4919项,如下:
14+
15+
![数据样例](/root/PyProjects/enterspider/数据样例.png)

upif.py

Whitespace-only changes.

数据样例.png

136 KB
Loading

0 commit comments

Comments
 (0)