はてなブックマークの人気エントリを250件くらいurlとタイトルとテキストデータを取ってくる
MongoDBの設定
MongoDB Compassがあると便利
https://garafu.blogspot.com/2019/02/install-mongod-on-macos.html
https://qiita.com/____easy/items/4dcda6cc4f5e7de13d36
scrapy, request, readability-lxml をpipかcondaかで入れるのだ...
| 名前 | 意味 |
|---|---|
| url | URL |
| title | ブログタイトル |
| html | htmlそのまま |
| content | 文章 |
ルートディレクトリ で
scrapy crawl broad
参考にしたページとかをそれぞれがまとめておくと、つまづかなくて済むかも??(自由に追記、編集して...)
| ブログ名 | 説明 |
|---|---|
| スクレイピングのまとめ | |
| はてなapiで文書とブックマーク数を取得 | |
| 自然言語処理における前処理 | |
| scrapy入門 | |
| 記事分類・特徴量選択 | 特徴量選択をするパッケージ |
| ニュース記事分類 | MeCab gensim scikit-learn使用 辞書作成 単語抽出 次元圧縮 ランダムフォレスト |
| ディープラーニングAPIまとめ | 様々なAPIの紹介 |
| Watson Natural language Understanding | 文書からのメタデータの抽出 |