Error in user YAML: (<unknown>): could not find expected ':' while scanning a simple key at line 3 column 1
---
- oeasy Python 0543
- 这是 oeasy 系统化 Python 教程,从基础一步步讲,扎实、完整、不跳步。愿意花时间学,就能真正学会。
本教程同步发布在:
个人网站: `https://oeasy.org`
蓝桥云课: `https://www.lanqiao.cn/courses/3584`
GitHub: `https://github.com/overmind1980/oeasy-python-tutorial`
Gitee: `https://gitee.com/overmind1980/oeasypython`
---- 上次爬了 baidu.com
- 找到了三组链接
- 然后分别遍历
- 百度这种搜索引擎是怎么形成的呢?🤔
- 从开始有网页以来
- 人们使用计算机中的浏览器来访问网页
- 网页太多太乱
- 能否有个索引呢?
- 手工收录站点
- 站长主动提交网址要求雅虎收录
- 但是既然人需要通过计算机访问网页
- 能否用计算机程序批量爬取网页呢?
- google使用爬虫程序
- 爬取网页
- 存入数据库
- 有人来搜索的时候
- 再到数据库里面进行查询
- 返回结果
- 逐渐google 代替 yahoo
- 成为了互联网的入口
- 各个网站非常需要被收录
- 主动提供
- sitemap.html
- 主动提供
- https://www.58.com/sitemap.xml
- 可以暴露自身的url的接口
- http://rkz.58.com/
- 跟下除了sitemap还有
- robots.txt
- 后来
- 有些网站希望成为垂类的入口
- 要养成用户在本网站或者app搜索的习惯
- 拒绝google收录
- 也写在robots.txt中
- 甚至还可以拒绝指定的搜索引擎
- ietf制定相应的规则
- robots.txt 也开始有了自己的规范
- robots.txt是一个爬虫公约
- 可以对于某些引擎、某些目录
- 拒绝爬取
- 或者允许爬取
- 可以对于某些引擎、某些目录
- 爬取之前需要先观察一下robots.txt
- 可以手动爬取百度指数吗?🤔
- 下次再说👋
- 本文来自 oeasy Python 系统教程。
- 想完整、扎实学 Python,
- 搜索 oeasy 即可。









