Crawl and analyze Bilibili data. Assignment of Information Content Security
对b站视频进行分类,爬取一个分类下的视频信息,可以包括视频本身信息、弹幕、评论、一些统计数据,对数据整理并统一格式,然后分析数据,可以有关键词、图表、解释等。
-
输入:字符串(关键词,即视频的分类)
-
输出:分析结果
进阶功能模块:随机爬取数据,分析出近期热点事件/热搜
- 无输入
- 输出:字符串(关键词,即视频的分类)列表
将进阶功能的输出循环输入基础功能就可以自动分析热点事件。
输入:字符串(关键词,即视频的分类)
输出:
- 统计数据
- 用json格式或excel等,具体细节待协商
- 评论和弹幕
- 主要是字符串,具体待协商
主要利用bilibili-api,参考[1]。
一种思路是:
- 先爬取搜索某个关键词出现的视频的链接或id,可参考[4]
- 再爬取这些视频统计数据
- 大部分都可以参考
- 爬取视频评论
- 参考[7]
- 爬取视频弹幕
- [7] 中提供的方法获取不完全,可以通过自动下载视频的方式自动下载弹幕,参考[3]
输入:即信息爬取的输出
输出:分析结果,多多益善
先清洗数据
画表、画图
参考[5]
- 关键词提取
- 高频词分析,如
参考[3]
-
词云
-
精彩片段、高能时刻
-
情感分析,如:
对于图表的详细解释参考[5]。
-
- 统计数据
-
XavierJiezou/python-danmu-analysis
- 弹幕
- 有分析
-
wanglishuai123/bili: 哔哩哔哩爬虫,每天定时爬取关键字的所有视频信息
- 关键词搜索
-
cyx031006/Crawler-Data-analysis: 哔哩哔哩_B站_Bilibili视频弹幕爬取与数据分析python
- 弹幕
- 有分析,且有详细解释
-
Python:抓取 Bilibili(B站)评论、弹幕、字幕等_python爬取b站评论-CSDN博客
- 偏教程
-
这才是B站爬虫的正确姿势,视频、评论、弹幕全部拿下 - 知乎
- 偏教程,提供了一些思路。推荐看看