File tree Expand file tree Collapse file tree 1 file changed +5
-5
lines changed
Expand file tree Collapse file tree 1 file changed +5
-5
lines changed Original file line number Diff line number Diff line change 1212
1313### 爬取静态网页一般需要那些技术
1414- 会一点点前端的三件套(html、css、js)不会的朋友可以去菜鸟教程上面看一看,只需要简单的入门,知道html标签的一个结构,css选择器的简单用法,js的话暂时不太需要。
15- - 会使用网络请求哭 ,比如requests、httpx等
16- - 会使用解析html的库 ,比如BeautifulSoup、parsel等
17- - 会查找静态网页的一个规律
15+ - 会使用网络请求库 ,比如requests、httpx等
16+ - 会使用html解析库 ,比如BeautifulSoup、parsel等
17+ - 会查找静态网页一个规律
1818- 存储方面的话看自己需求,如果需要存db这些,就需要自己去了解一些db方面的知识(可选)
1919
2020## 实战示例
2121> 下面开始爬虫入门教程系列的第一次代码实战,前面7讲都在将一些理论知识,我们来看看如何将这些理论知识用于实践当中。<br >
2222> 我的教程都会给大家写两个版本,一个同步请求版本,一个异步请求版本,可能大家在很多别人教程里看见的大多数都是使用requests + BeautifulSoup这一套。<br >
23- > 我这边给大家再写一套一步的 ,我为什么很喜欢写爬虫代码喜欢用异步?
23+ > 我这边给大家再写一套异步的 ,我为什么很喜欢写爬虫代码喜欢用异步?
2424> 之前大家如果看过MediaCrawler的源码实现的话,可以看到我整个实现全是基于异步,从发请求、操作数据库、操作db,只要能异步化我都异步化了。
2525> - 1、这是一种趋势,python一些流行的web框架现在都在往异步方面靠,我们提前用爬虫代码练练手,为后续你可能从事python方面的后端工程师做一些准备
2626> - 2、性能真的很不错,之前那种多线程爬取的效率有点低,使用异步能在单进程单线内把资源利用发挥到极致。
2727
2828### 任务需求描述
29- > 由于合规信息要求,我们的案例大多都会选择一些不在国内的站点来作为爬虫目标站点,技术的原理是想通的 。
29+ > 由于合规信息要求,我们的案例大多都会选择一些不在国内的站点来作为爬虫目标站点,技术的原理是相通的 。
3030
3131今天我要爬取的是一个BBS论坛网站的股票讨论部分,目标站点地址:https://www.ptt.cc/bbs/Stock/index.html
3232需要采集前N页的信息,具体采集内容如下:
You can’t perform that action at this time.
0 commit comments