Skip to content

Commit 77ab9d8

Browse files
committed
feat: 爬虫入门-01为什么写这个爬虫教程
1 parent 9cb3de8 commit 77ab9d8

8 files changed

+73
-0
lines changed

README.md

Lines changed: 53 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,53 @@
1+
## 关于作者
2+
### 基本信息
3+
- 全栈程序员,熟悉Python、Golang、JavaScript,工作中主要用Golang。
4+
- [Github万星爬虫仓库作者](https://github.com/NanmiCoder/MediaCrawler)
5+
- 曾经主导并参与过百万级爬虫采集系统架构设计与编码
6+
- 爬虫是一种技术兴趣爱好,参与爬虫有一种对抗的感觉,越难越兴奋。
7+
8+
### 视频教程
9+
> 自媒体账号名: 程序员阿江-Relakkes
10+
- Github:https://github.com/NanmiCoder
11+
- B站:https://space.bilibili.com/434377496
12+
- 小红书:https://www.xiaohongshu.com/user/profile/5f58bd990000000001003753
13+
- 抖音:https://www.douyin.com/user/MS4wLjABAAAATJPY7LAlaa5X-c8uNdWkvz0jUGgpw4eeXIwu_8BhvqE
14+
15+
### 怎么联系我?
16+
17+
- Wechat:yzglan
18+
- QQ: 524134442
19+
20+
21+
## 爬虫入门
22+
### 爬虫入门教程目录大纲
23+
- [x] [01_为什么要写这个爬虫教程](爬虫入门/01_为什么要写这个爬虫教程.md)
24+
- [ ] [02_个人学会爬虫怎么接单赚钱](爬虫入门/02_个人学会爬虫怎么接单赚钱.md)
25+
- [ ] [03_网络爬虫到底是什么](爬虫入门/03_网络爬虫到底是什么.md)
26+
- [ ] [04_爬虫的基本工作原理](爬虫入门/04_爬虫的基本工作原理.md)
27+
- [ ] [05_利用各种工具抓包网络请求](爬虫入门/05_利用各种工具抓包网络请求.md)
28+
- [ ] [06_为什么说用Python写爬虫有天生优势](爬虫入门/06_为什么说用Python写爬虫有天生优势.md)
29+
- [ ] [07_Python常见的网络请求库](爬虫入门/07_Python常见的网络请求库.md)
30+
- [ ] [08_爬虫入门实战1_静态网页数据提取](爬虫入门/08_爬虫入门实战1_静态网页数据提取.md)
31+
- [ ] [09_爬虫入门实战2_动态数据提取](爬虫入门/09_爬虫入门实战2_动态数据提取.md)
32+
- [ ] [10_爬虫入门实战3_数据存储实现](爬虫入门/10_爬虫入门实战3_数据存储实现.md)
33+
- [ ] [11_爬虫入门实战4_高效率的爬虫实现](爬虫入门/11_爬虫入门实战4_高效率的爬虫实现.md)
34+
- [ ] [12_爬虫入门实战5_编写易于维护的爬虫代码](爬虫入门/12_爬虫入门实战5_编写易于维护的爬虫代码.md)
35+
### 爬虫入门教程源代码
36+
37+
## 爬虫进阶
38+
### 爬虫进阶教程目录大纲
39+
todo
40+
### 爬虫进阶教程源代码
41+
todo
42+
43+
44+
45+
## 高级爬虫
46+
### 高级爬虫教程目录大纲
47+
todo
48+
### 高级爬虫教程源代码
49+
todo
50+
51+
52+
## 免责声明
53+
>本仓库的所有内容仅供学习和参考之用,禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究,不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任,本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。
Lines changed: 20 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,20 @@
1+
## 为什么写这个爬虫教程?
2+
- 满足需求:我的[自媒体平台爬虫](https://github.com/NanmiCoder/MediaCrawler)爆火了之后,越来越多人私信我都是问想要学习爬虫时,我意识到了有很多人对这个爬虫领域感兴趣,但却不知道从何入手。因此决定撰写这个爬虫教程。
3+
4+
- 分享经验:首先我这个人虽然技术一般,但是真的很喜欢分享,平时工作中我学到了什么新知识都迫不及待的想要跟身边同事去分享,所以既然大家有需要,那么我会分享自己在爬虫领域的一些经验知识和见解。
5+
6+
- 激发兴趣:希望通过我的教程学习能够激发更多人对编程和数据获取的兴趣,让大家探索更多的可能。
7+
8+
## 爬虫是一个综合性的技能
9+
爬虫工程师需要具备广泛的技能,包括前端开发(HTML、JavaScript、浏览器和APP抓包)、HTTP协议知识,简单数据挖掘技能(数据结构化、清洗、排重等工作)以及数据存储方面的知识。
10+
11+
熟练掌握这些技能可以让你成为一名合格的爬虫工程师,能够处理数百万个网页数据。然而,当需要处理上千万个网页数据时,你将需要不断优化存储方法、内存调配方式和抓取策略。在对抓取数据的实时性和数据量有极高要求时,爬虫工程师又需要像解决社会工程问题一样,处理大量分布的IP和账号问题。
12+
13+
## 对初学者的一些建议
14+
学爬虫不要被网络上的一堆名词吓到。如果你是一个初学者,你只需要多动手练习。从最简单的爬虫开始写起。
15+
16+
在编码和调试的过程中,你会遇到各种各样的问题。这时是你最好的学习和进阶时刻。通过解决这些问题,你会摸索出需要掌握哪些技巧。<br>
17+
18+
记住,编程是一个不断学习和成长的过程,每个错误都是一个宝贵的教训,每次解决问题都是一次进步。 <br>
19+
20+
不要害怕犯错,勇敢地面对挑战,你会发现自己的能力在不断提升。坚持不懈,相信自己,你一定能成为优秀的程序员!

爬虫入门/07_Python常见的网络请求库.md

Whitespace-only changes.

爬虫入门/08_爬虫入门实战1_静态网页数据提取.md

Whitespace-only changes.

爬虫入门/09_爬虫入门实战2_动态数据提取.md

Whitespace-only changes.

爬虫入门/10_爬虫入门实战3_数据存储实现.md

Whitespace-only changes.

爬虫入门/11_爬虫入门实战4_高效率的爬虫实现.md

Whitespace-only changes.

爬虫入门/12_爬虫入门实战5_编写易于维护的爬虫代码.md

Whitespace-only changes.

0 commit comments

Comments
 (0)