Merge branch 'main' into Dimlitter-patch-1

LittleYe233 · web-flow · commit 43a9acade880 · 2022-02-10T22:13:06.000+08:00
diff --git a/auto_comment_plus.py b/auto_comment_plus.py
@@ -5,21 +5,30 @@
 
 import random
 import time
+
 import jieba.analyse
 import requests
+import yaml
 from lxml import etree
+
 import jdspider
 
+
+CONFIG_PATH = './config.yml'
+
+
 jieba.setLogLevel(jieba.logging.INFO)
-"""
-ck填到下面就好，只支持网页版的Ck
-以下为最短格式
-"""
-ck = ''
+
+
+with open(CONFIG_PATH, 'r', encoding='utf-8') as f:
+    cfg = yaml.safe_load(f)
+ck = cfg['user']['cookie']
 
 headers = {
     'cookie': ck,
-    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36',
+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/'
+                  '537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/'
+                  '537.36'
 }
 
 
@@ -35,7 +44,7 @@ def generation(pname, _class=0):
     # class 0是评价 1是提取id
     try:
         name = jieba.analyse.textrank(pname, topK=5, allowPOS='n')[0]
-    except:
+    except Exception as _:
         name = "宝贝"
     if _class == 1:
         return name
@@ -50,6 +59,7 @@ def generation(pname, _class=0):
             return 5, (
                 comments.replace("$", name))
 
+
 # 查询全部评价
 def all_evaluate():
     N = {}
@@ -73,7 +83,8 @@ def ordinary(N):
     Order_data = []
     req_et = []
     for i in range((N['待评价订单'] // 20) + 1):
-        url = f'https://club.jd.com/myJdcomments/myJdcomment.action?sort=0&page={i + 1}'
+        url = (f'https://club.jd.com/myJdcomments/myJdcomment.action?sort=0&'
+               f'page={i + 1}')
         req = requests.get(url, headers=headers)
         req_et.append(etree.HTML(req.text))
     for i in req_et:
@@ -86,14 +97,16 @@ def ordinary(N):
     print(f"当前共有{N['待评价订单']}个评价。")
     for i, Order in enumerate(Order_data):
         oid = Order.xpath('tr[@class="tr-th"]/td/span[3]/a/text()')[0]
-        oname_data = Order.xpath('tr[@class="tr-bd"]/td[1]/div[1]/div[2]/div/a/text()')
-        pid_data = Order.xpath('tr[@class="tr-bd"]/td[1]/div[1]/div[2]/div/a/@href')
+        oname_data = Order.xpath(
+            'tr[@class="tr-bd"]/td[1]/div[1]/div[2]/div/a/text()')
+        pid_data = Order.xpath(
+            'tr[@class="tr-bd"]/td[1]/div[1]/div[2]/div/a/@href')
         for oname, pid in zip(oname_data, pid_data):
             pid = pid.replace('//item.jd.com/', '').replace('.html', '')
 
             print(f"\t{i}.开始评价订单\t{oname}[{oid}]")
-            url2 = f"https://club.jd.com/myJdcomments/saveProductComment.action"
-            xing,Str = generation(oname)
+            url2 = "https://club.jd.com/myJdcomments/saveProductComment.action"
+            xing, Str = generation(oname)
             print(f'\t\t评价内容,星级{xing}：', Str)
             data2 = {
                 'orderId': oid,
@@ -113,10 +126,12 @@ def ordinary(N):
 def sunbw(N):
     Order_data = []
     for i in range((N['待晒单'] // 20) + 1):
-        url = f"https://club.jd.com/myJdcomments/myJdcomment.action?sort=1&page={i + 1}"
+        url = (f'https://club.jd.com/myJdcomments/myJdcomment.action?sort=1'
+               f'&page={i + 1}')
         req = requests.get(url, headers=headers)
         req_et = etree.HTML(req.text)
-        Order_data.extend(req_et.xpath('//*[@id="evalu01"]/div[2]/div[1]/div[@class="comt-plist"]/div[1]'))
+        Order_data.extend(req_et.xpath(
+            '//*[@id="evalu01"]/div[2]/div[1]/div[@class="comt-plist"]/div[1]'))
     print(f"当前共有{N['待晒单']}个需要晒单。")
     for i, Order in enumerate(Order_data):
         oname = Order.xpath('ul/li[1]/div/div[2]/div[1]/a/text()')[0]
@@ -126,17 +141,21 @@ def sunbw(N):
         print(f'\t开始晒单{i},{oname}')
         # 获取图片
         pname = generation(pname=oname, _class=1)
-        url1 = f"https://club.jd.com/discussion/getProductPageImageCommentList.action?productId={pid}"
+        url1 = (f'https://club.jd.com/discussion/getProductPageImageCommentList'
+                f'.action?productId={pid}')
         imgdata = requests.get(url1, headers=headers).json()
         if imgdata["imgComments"]["imgCommentCount"] == 0:
-            url1 = "https://club.jd.com/discussion/getProductPageImageCommentList.action?productId=1190881"
+            url1 = ('https://club.jd.com/discussion/getProductPageImage'
+                    'CommentList.action?productId=1190881')
             imgdata = requests.get(url1, headers=headers).json()
         imgurl = imgdata["imgComments"]["imgList"][0]["imageUrl"]
 
         #
         print(f'\t\t图片url={imgurl}')
-        url2 = "https://club.jd.com/myJdcomments/saveShowOrder.action"  # 提交晒单
-        headers['Referer'] = 'https://club.jd.com/myJdcomments/myJdcomment.action?sort=1'
+        # 提交晒单
+        url2 = "https://club.jd.com/myJdcomments/saveShowOrder.action"
+        headers['Referer'] = ('https://club.jd.com/myJdcomments/myJdcomment.'
+                              'action?sort=1')
         headers['Origin'] = 'https://club.jd.com'
         headers['Content-Type'] = 'application/x-www-form-urlencoded'
         data = {
@@ -162,21 +181,27 @@ def review(N):
     req_et = []
     Order_data = []
     for i in range((N['待追评'] // 20) + 1):
-        url = f"https://club.jd.com/myJdcomments/myJdcomment.action?sort=3&page={i + 1}"
+        url = (f"https://club.jd.com/myJdcomments/myJdcomment.action?sort=3"
+               f"&page={i + 1}")
         req = requests.get(url, headers=headers)
         req_et.append(etree.HTML(req.text))
     for i in req_et:
-        Order_data.extend(i.xpath('//*[@id="main"]/div[2]/div[2]/table/tr[@class="tr-bd"]'))
+        Order_data.extend(
+            i.xpath('//*[@id="main"]/div[2]/div[2]/table/tr[@class="tr-bd"]'))
     if len(Order_data) != N['待追评']:
         for i in req_et:
-            Order_data.extend(i.xpath('//*[@id="main"]/div[2]/div[2]/table/tbody/tr[@class="tr-bd"]'))
+            Order_data.extend(i.xpath(
+                '//*[@id="main"]/div[2]/div[2]/table/tbody/tr[@class="tr-bd"]'))
     print(f"当前共有{N['待追评']}个需要追评。")
     for i, Order in enumerate(Order_data):
         oname = Order.xpath('td[1]/div/div[2]/div/a/text()')[0]
         _id = Order.xpath('td[3]/div/a/@href')[0]
         print(f'\t开始第{i}，{oname}')
-        url1 = "https://club.jd.com/afterComments/saveAfterCommentAndShowOrder.action"
-        pid, oid = _id.replace('http://club.jd.com/afterComments/productPublish.action?sku=', "").split('&orderId=')
+        url1 = ("https://club.jd.com/afterComments/"
+                "saveAfterCommentAndShowOrder.action")
+        pid, oid = _id.replace(
+            'http://club.jd.com/afterComments/productPublish.action?sku=',
+            "").split('&orderId=')
         context = generation(oname)
         print(f'\t\t追评内容：{context}')
         req_url1 = requests.post(url1, headers=headers, data={
@@ -197,21 +222,25 @@ def Service_rating(N):
     Order_data = []
     req_et = []
     for i in range((N['服务评价'] // 20) + 1):
-        url = f"https://club.jd.com/myJdcomments/myJdcomment.action?sort=4&page={i + 1}"
+        url = (f"https://club.jd.com/myJdcomments/myJdcomment.action?sort=4"
+               f"&page={i + 1}")
         req = requests.get(url, headers=headers)
         req_et.append(etree.HTML(req.text))
     for i in req_et:
-        Order_data.extend(i.xpath('//*[@id="main"]/div[2]/div[2]/table/tbody/tr[@class="tr-bd"]'))
+        Order_data.extend(i.xpath(
+            '//*[@id="main"]/div[2]/div[2]/table/tbody/tr[@class="tr-bd"]'))
     if len(Order_data) != N['服务评价']:
         Order_data = []
         for i in req_et:
-            Order_data.extend(i.xpath('//*[@id="main"]/div[2]/div[2]/table/tr[@class="tr-bd"]'))
+            Order_data.extend(i.xpath(
+                '//*[@id="main"]/div[2]/div[2]/table/tr[@class="tr-bd"]'))
     print(f"当前共有{N['服务评价']}个需要服务评价。")
     for i, Order in enumerate(Order_data):
         oname = Order.xpath('td[1]/div[1]/div[2]/div/a/text()')[0]
         oid = Order.xpath('td[4]/div/a[1]/@oid')[0]
         print(f'\t开始第{i}，{oname}')
-        url1 = f'https://club.jd.com/myJdcomments/insertRestSurvey.action?voteid=145&ruleid={oid}'
+        url1 = (f'https://club.jd.com/myJdcomments/insertRestSurvey.action'
+                f'?voteid=145&ruleid={oid}')
         data1 = {
             'oid': oid,
             'gid': '32',
@@ -273,4 +302,4 @@ def main():
     try:
         main()
     except RecursionError:
-        print("多次出现未完成情况，程序自动退出")
+        print("多次出现未完成情况，程序自动退出")
diff --git a/jdspider.py b/jdspider.py
@@ -2,68 +2,72 @@
 # @Author :@Zhang Jiale and @Dimlitter
 # @File : jdspider.py
 
-import sys
-import requests
-from lxml import etree
-import logging
-from urllib.parse import quote
 import json
-from urllib.parse import urlencode
-import time
+import logging
 import random
-import zhon.hanzi
 import re
-#import pymysql
+import sys
+import time
+from urllib.parse import quote, urlencode
+
+import requests
+import zhon.hanzi
+from lxml import etree
+
+# import pymysql
+
 
 class JDSpider:
-# 爬虫实现类：传入商品类别（如手机、电脑），构造实例。然后调用getData爬取数据。
-    def __init__(self,categlory):  
-        self.startUrl = "https://search.jd.com/Search?keyword=%s&enc=utf-8"%(quote(categlory))     #jD起始搜索页面
+    # 爬虫实现类：传入商品类别（如手机、电脑），构造实例。然后调用getData爬取数据。
+    def __init__(self, categlory):
+        # jD起始搜索页面
+        self.startUrl = "https://search.jd.com/Search?keyword=%s&enc=utf-8" % (
+            quote(categlory))
         self.commentBaseUrl = "https://sclub.jd.com/comment/productPageComments.action?"
-        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36',}
+        self.headers = {
+            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36', }
         self.productsId = self.getId()
-        self.comtype = {1:"nagetive",2:"medium",3:"positive"}
+        self.comtype = {1: "nagetive", 2: "medium", 3: "positive"}
         self.categlory = categlory
         self.iplist = {
-                    'http':[],
-                    'https':[]
+            'http': [],
+            'https': []
         }
-    def getParamUrl(self,productid,page,score):
-        params = {                    #用于控制页数，页面信息数的数据，非常重要，必不可少，要不然会被JD识别出来，爬不出相应的数据。
-            "productId": "%s"%(productid),
-            "score": "%s"%(score),               #1表示差评，2表示中评，3表示好评
+
+    def getParamUrl(self, productid, page, score):
+        params = {  # 用于控制页数，页面信息数的数据，非常重要，必不可少，要不然会被JD识别出来，爬不出相应的数据。
+            "productId": "%s" % (productid),
+            "score": "%s" % (score),  # 1表示差评，2表示中评，3表示好评
             "sortType": "5",
-            "page": "%s"%(page),
+            "page": "%s" % (page),
             "pageSize": "10",
             "isShadowSku": "0",
             "rid": "0",
             "fold": "1"
         }
-        url = self.commentBaseUrl+urlencode(params)
-        return params,url
-
+        url = self.commentBaseUrl + urlencode(params)
+        return params, url
 
-    def getHeaders(self,productid):             #和初始的self.header不同，这是爬取某个商品的header，加入了商品id，我也不知道去掉了会怎样。
-        header = {"Referer": "https://item.jd.com/%s.html"%(productid),
-                    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"
+    def getHeaders(self, productid):  # 和初始的self.header不同，这是爬取某个商品的header，加入了商品id，我也不知道去掉了会怎样。
+        header = {"Referer": "https://item.jd.com/%s.html" % (productid),
+                  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"
                   }
         return header
 
-    def getId(self):    #获取商品id，为了得到具体商品页面的网址。结果保存在self.productId的数组里
-        response = requests.get(self.startUrl, headers = self.headers)
+    def getId(self):  # 获取商品id，为了得到具体商品页面的网址。结果保存在self.productId的数组里
+        response = requests.get(self.startUrl, headers=self.headers)
         if response.status_code != 200:
             logging.warning("状态码错误，爬虫连接异常！")
         html = etree.HTML(response.text)
         return html.xpath('//li[@class="gl-item"]/@data-sku')
 
+    def getData(self, maxPage, score,):  # maxPage是爬取评论的最大页数，每页10条数据。差评和好评的最大一般页码不相同，一般情况下：好评>>差评>中评
+        # maxPage遇到超出的页码会自动跳出，所以设大点也没有关系。
+        # score是指那种评价类型，好评3、中评2、差评1。
 
-    def getData(self,maxPage,score,):  #maxPage是爬取评论的最大页数，每页10条数据。差评和好评的最大一般页码不相同，一般情况下：好评>>差评>中评
-                                        #maxPage遇到超出的页码会自动跳出，所以设大点也没有关系。
-                                         #score是指那种评价类型，好评3、中评2、差评1。
-        
         comments = []
         scores = []
-        if len(self.productsId) < 10: #limit the sum of products
+        if len(self.productsId) < 10:  # limit the sum of products
             sum = len(self.productsId)
         else:
             sum = 10
@@ -74,33 +78,36 @@ def getData(self,maxPage,score,):  #maxPage是爬取评论的最大页数，每
                 param,url = self.getParamUrl(id,i,score)
                 print("正在爬取评论信息>>>>>>>>>第：%d 个，第 %d 页"%(j,i))
                 try:
-                    response = requests.get(url,headers = header,params=param)
+                    response = requests.get(url, headers=header, params=param)
                 except Exception as e:
                     logging.warning(e)
                     break
-                if response.status_code !=200:
+                if response.status_code != 200:
                     logging.warning("状态码错误，爬虫连接异常")
                     continue
-                time.sleep(random.randint(5,10))    #设置时延，防止被封IP
-                if response.text=='':
+                time.sleep(random.randint(5, 10))  # 设置时延，防止被封IP
+                if response.text == '':
                     logging.warning("未爬取到信息")
                     continue
                 try:
                     res_json = json.loads(response.text)
                 except Exception as e:
                     logging.warning(e)
                     continue
-                if len((res_json['comments']))==0:
-                    logging.warning("页面次数已到：%d,超出范围"%(i))
+                if len((res_json['comments'])) == 0:
+                    logging.warning("页面次数已到：%d,超出范围" % (i))
                     break
-                logging.info("正在爬取%s %s 第 %d"%(self.categlory,self.comtype[score],i))
+                logging.info("正在爬取%s %s 第 %d" %
+                             (self.categlory, self.comtype[score], i))
                 for cdit in res_json['comments']:
-                    comment = cdit['content'].replace("\n",' ').replace('\r',' ')
+                    comment = cdit['content'].replace(
+                        "\n", ' ').replace('\r', ' ')
                     comments.append(comment)
                     scores.append(cdit['score'])
-        #savepath = './'+self.categlory+'_'+self.comtype[score]+'.csv'
-        logging.warning("已爬取%d 条 %s 评价信息"%(len(comments),self.comtype[score]))
-        #存入列表,简单处理评价
+        # savepath = './'+self.categlory+'_'+self.comtype[score]+'.csv'
+        logging.warning("已爬取%d 条 %s 评价信息" %
+                        (len(comments), self.comtype[score]))
+        # 存入列表,简单处理评价
         remarks = []
         for i in range(len(comments)):
             rst = re.findall(zhon.hanzi.sentence,comments[i])
@@ -132,17 +139,16 @@ def getData(self,maxPage,score,):  #maxPage是爬取评论的最大页数，每
                     ]
         return result
 
-        
-    def solvedata(self,remarks):
-        #将数据拆分成句子
+    def solvedata(self, remarks):
+        # 将数据拆分成句子
         sentences = []
         for i in range(len(remarks)):
             for j in range(len(remarks[i])):
                 sentences.append(remarks[i][j])
-        print("爬取的评价结果："+ str(sentences))
+        print("爬取的评价结果：" + str(sentences))
         return sentences
 
-        #存入mysql数据库
+        # 存入mysql数据库
         '''
         db = pymysql.connect(host='主机名',user='用户名',password='密码',db='数据库名',charset='utf8mb4')
         mycursor = db.cursor()
@@ -161,18 +167,18 @@ def solvedata(self,remarks):
         logging.warning("已存入数据库")
         '''
 
-        #存入csv文件
+        # 存入csv文件
         '''    
         with open(savepath,'a+',encoding ='utf8') as f:
             for i in range(len(comments)):
                 f.write("%d\t%s\t%s\n"%(i,scores[i],comments[i]))
         logging.warning("数据已保存在 %s"%(savepath))
         '''
-        
-#测试用例
-if __name__ =="__main__":
+
+
+# 测试用例
+if __name__ == "__main__":
     list = ['商品名']
     for item in list:
         spider = JDSpider(item)
         spider.getData(2, 3)
-