File tree Expand file tree Collapse file tree 5 files changed +46
-0
lines changed
Expand file tree Collapse file tree 5 files changed +46
-0
lines changed Original file line number Diff line number Diff line change 2323<a href =" https://sider.ai/ad-land-redirect?source=github&p1=mi&p2=kk " >通过注册这个款免费的GPT助手,帮我获取GPT4额度作为支持。也是我每天在用的一款chrome AI助手插件</a >
2424<a href =" https://sider.ai/ad-land-redirect?source=github&p1=mi&p2=kk " target =" _blank " ><img src =" https://s2.loli.net/2024/04/01/jK8drZ2bxTg67q9.png " ></a >
2525
26+ ## 爬虫教程交流群:
27+ > 7天有效期,自动更新
28+
29+ ![ img.png] ( static/images/qrcode/1.png )
2630
2731## 爬虫入门
2832### 爬虫入门教程目录大纲
Original file line number Diff line number Diff line change 1+ # 爬虫入门实战2:动态数据提取
2+
3+ 在爬虫入门实战1中,我们学习了如何从静态网页中提取数据。这一节,我们将探索动态网页的数据提取,这是爬虫技术中更为高级也更为常见的一个环节。
4+
5+ ## 什么是动态网页
6+
7+ 动态网页与静态网页不同,其内容是可以根据用户操作、请求参数或者是服务器端的数据变化而变化的。动态网页的内容通常是通过客户端的JavaScrip发起异步请求,由服务端动态返回的数据(json、html)
8+
9+ ## 动态网页工作原理
10+
11+ 动态网页的数据加载通常有两种方式:
12+
13+ - ** 客户端渲染** :当用户访问一个网页时,服务器只发送HTML框架和JavaScript代码。浏览器执行JavaScript代码,这些代码会向服务器发送请求,获取数据,然后动态地更新页面内容。
14+ - ** 服务器端渲染** :服务器根据请求的不同,动态生成HTML内容发送给客户端。客户端接收到完整的HTML页面,直接渲染显示。
15+
16+ ![ ] ( ../static/images/1000000011.png )
17+
18+ ## 爬取动态网页需要的技术
19+ - 理解AJAX和API请求:动态网页往往通过AJAX请求获取数据,了解这一点对于数据提取至关重要。
20+ - 使用浏览器开发者工具:通过分析网络请求,找出数据加载的具体过程。
21+ - 使用适合动态网页的库,如Selenium、Puppeteer、Playwirght等,模拟浏览器行为获取数据。
22+ - 学习JavaScript基础,有助于理解网页是如何动态加载数据的。
23+
24+ ## 实战示例1:爬取雅虎财经网站的数字加密货币数据
25+
26+ ### 任务需求描述
27+ 目标站点URL:https://finance.yahoo.com/crypto
28+ 爬取目标站点所有数字货币的数据,请使用API请求,不要用模拟浏览器驱动的方式
29+ ![ img.png] ( ../static/images/1000000012.png )
30+
31+ ### 实现步骤
32+ > todo
33+
34+ 1 . ** 分析数据加载方式** :
35+ 2 . ** 编写爬虫代码** :
36+ 3 . ** 定位数据** :
37+ 4 . ** 存储数据** :
38+
39+ ### 示例代码
40+
41+ ``` python
42+ ```
You can’t perform that action at this time.
0 commit comments