Skip to content

Commit 9acdde4

Browse files
committed
feat: 修改错别字
1 parent 18de14b commit 9acdde4

File tree

1 file changed

+5
-5
lines changed

1 file changed

+5
-5
lines changed

爬虫入门/08_爬虫入门实战1_静态网页数据提取.md

Lines changed: 5 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -12,21 +12,21 @@
1212

1313
### 爬取静态网页一般需要那些技术
1414
- 会一点点前端的三件套(html、css、js)不会的朋友可以去菜鸟教程上面看一看,只需要简单的入门,知道html标签的一个结构,css选择器的简单用法,js的话暂时不太需要。
15-
- 会使用网络请求哭,比如requests、httpx等
16-
- 会使用解析html的库,比如BeautifulSoup、parsel等
17-
- 会查找静态网页的一个规律
15+
- 会使用网络请求库,比如requests、httpx等
16+
- 会使用html解析库,比如BeautifulSoup、parsel等
17+
- 会查找静态网页一个规律
1818
- 存储方面的话看自己需求,如果需要存db这些,就需要自己去了解一些db方面的知识(可选)
1919

2020
## 实战示例
2121
> 下面开始爬虫入门教程系列的第一次代码实战,前面7讲都在将一些理论知识,我们来看看如何将这些理论知识用于实践当中。<br>
2222
> 我的教程都会给大家写两个版本,一个同步请求版本,一个异步请求版本,可能大家在很多别人教程里看见的大多数都是使用requests + BeautifulSoup这一套。<br>
23-
> 我这边给大家再写一套一步的,我为什么很喜欢写爬虫代码喜欢用异步?
23+
> 我这边给大家再写一套异步的,我为什么很喜欢写爬虫代码喜欢用异步?
2424
> 之前大家如果看过MediaCrawler的源码实现的话,可以看到我整个实现全是基于异步,从发请求、操作数据库、操作db,只要能异步化我都异步化了。
2525
> - 1、这是一种趋势,python一些流行的web框架现在都在往异步方面靠,我们提前用爬虫代码练练手,为后续你可能从事python方面的后端工程师做一些准备
2626
> - 2、性能真的很不错,之前那种多线程爬取的效率有点低,使用异步能在单进程单线内把资源利用发挥到极致。
2727
2828
### 任务需求描述
29-
> 由于合规信息要求,我们的案例大多都会选择一些不在国内的站点来作为爬虫目标站点,技术的原理是想通的
29+
> 由于合规信息要求,我们的案例大多都会选择一些不在国内的站点来作为爬虫目标站点,技术的原理是相通的
3030
3131
今天我要爬取的是一个BBS论坛网站的股票讨论部分,目标站点地址:https://www.ptt.cc/bbs/Stock/index.html
3232
需要采集前N页的信息,具体采集内容如下:

0 commit comments

Comments
 (0)