- 定时采集10家医学会和1个微信公众号会议通知
- 写入MySQL数据库,持久化储存
- 次日发送邮件,获取上一个工作日发布的会议通知
- 已经收集医学会190家,目前项目正在ing...
- 案例仅供学习交流使用
安装MySQL
安装pymysql
pip install pymysql安装scrapy
pip install scrapy创建项目
scrapy startproject SpiderMeet进入项目目录
cd spiders创建爬虫
scrapy genspider SpiderName example.com运行爬虫
scrapy crawl SpiderName --nologC:.
│ .gitattributes
│ .gitignore
│ items.py
│ KeyMeet.py
│ middlewares.py
│ MySQLConnector.py
│ pipelines.py
│ README.md
│ run.py
│ scrapy.cfg
│ settings.py
│ __init__.py
│
├─asset
│ medical.png
│ scrapy.png
│
├─log
│ 20230607205948040405.log
│
├─spiders
│ │ beijingjiankangcujin.py
│ │ henanyixuewang.py
│ │ ningboyixuehui.py
│ │ rentijiankangkejicujinhui.py
│ │ sichuanshengyixuehui.py
│ │ xibaoshengwuxuexuehui.py
│ │ youmaihuixun.py
│ │ zhongguokangaixiehui.py
│ │ zhongguokangfuyixuehui.py
│ │ zhongguoyaoxuehui.py
│ │ zhonguoshengwuyixue.py
│ │ __init__.py
│ │
│ └─__pycache__
│ beijingjiankangcujin.cpython-39.pyc
│ henanyixuewang.cpython-39.pyc
│ ningboyixuehui.cpython-39.pyc
│ rentijiankangkejicujinhui.cpython-39.pyc
│ sichuanshengyixuehui.cpython-39.pyc
│ youmaihuixun.cpython-39.pyc
│ zhongguokangaixiehui.cpython-39.pyc
│ zhongguokangfuyixuehui.cpython-39.pyc
│ zhongguoyaoxuehui.cpython-39.pyc
│ zhonguoshengwuyixue.cpython-39.pyc
│ __init__.cpython-39.pyc
│
└─__pycache__
items.cpython-39.pyc
KeyMeet.cpython-39.pyc
MySQLConnector.cpython-39.pyc
pipelines.cpython-39.pyc
settings.cpython-39.pyc
__init__.cpython-39.pyc安装MySQL
关于MySQLConnector.py
- MySQLConnector.py中封装了数据库的增删改查Database类
- 可以使用Database中的create_table方法创建表
pipelines.py中配置
- 修改Database类,链接自己的数据库
关于愿景:
励志成为一名医疗行业NLP工程师的打工人
关于头发:
偶尔掉一点,还很茂密(可能技术有很大提升空间)
关于爱好:
坚持每周锻炼两次,腹肌一大块
关于朋友:
积极向各位大佬学习,提升自身
关于联系方式:
