Beginners series - part 5

josephkearney91 · josephkearney91 · commit 3f3ee055f6c6 · 2022-09-06T18:15:54.000+02:00
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/__init__.py b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/__init__.py
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/itemloaders.py b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/itemloaders.py
@@ -0,0 +1,10 @@
+from itemloaders.processors import TakeFirst, MapCompose
+from scrapy.loader import ItemLoader
+
+
+class ChocolateProductLoader(ItemLoader):
+
+    default_output_processor = TakeFirst()
+
+    price_in = MapCompose(lambda x: x.split("£")[-1])
+    url_in = MapCompose(lambda x: 'https://www.chocolate.co.uk' + x )
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/items.py b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/items.py
@@ -0,0 +1,6 @@
+import scrapy
+
+class ChocolateProduct(scrapy.Item):
+    name = scrapy.Field()
+    price = scrapy.Field()
+    url = scrapy.Field()
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/middlewares.py b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/middlewares.py
@@ -0,0 +1,103 @@
+# Define here the models for your spider middleware
+#
+# See documentation in:
+# https://docs.scrapy.org/en/latest/topics/spider-middleware.html
+
+from scrapy import signals
+
+# useful for handling different item types with a single interface
+from itemadapter import is_item, ItemAdapter
+
+
+class ChocolatescraperSpiderMiddleware:
+    # Not all methods need to be defined. If a method is not defined,
+    # scrapy acts as if the spider middleware does not modify the
+    # passed objects.
+
+    @classmethod
+    def from_crawler(cls, crawler):
+        # This method is used by Scrapy to create your spiders.
+        s = cls()
+        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
+        return s
+
+    def process_spider_input(self, response, spider):
+        # Called for each response that goes through the spider
+        # middleware and into the spider.
+
+        # Should return None or raise an exception.
+        return None
+
+    def process_spider_output(self, response, result, spider):
+        # Called with the results returned from the Spider, after
+        # it has processed the response.
+
+        # Must return an iterable of Request, or item objects.
+        for i in result:
+            yield i
+
+    def process_spider_exception(self, response, exception, spider):
+        # Called when a spider or process_spider_input() method
+        # (from other spider middleware) raises an exception.
+
+        # Should return either None or an iterable of Request or item objects.
+        pass
+
+    def process_start_requests(self, start_requests, spider):
+        # Called with the start requests of the spider, and works
+        # similarly to the process_spider_output() method, except
+        # that it doesn’t have a response associated.
+
+        # Must return only requests (not items).
+        for r in start_requests:
+            yield r
+
+    def spider_opened(self, spider):
+        spider.logger.info('Spider opened: %s' % spider.name)
+
+
+class ChocolatescraperDownloaderMiddleware:
+    # Not all methods need to be defined. If a method is not defined,
+    # scrapy acts as if the downloader middleware does not modify the
+    # passed objects.
+
+    @classmethod
+    def from_crawler(cls, crawler):
+        # This method is used by Scrapy to create your spiders.
+        s = cls()
+        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
+        return s
+
+    def process_request(self, request, spider):
+        # Called for each request that goes through the downloader
+        # middleware.
+
+        # Must either:
+        # - return None: continue processing this request
+        # - or return a Response object
+        # - or return a Request object
+        # - or raise IgnoreRequest: process_exception() methods of
+        #   installed downloader middleware will be called
+        return None
+
+    def process_response(self, request, response, spider):
+        # Called with the response returned from the downloader.
+
+        # Must either;
+        # - return a Response object
+        # - return a Request object
+        # - or raise IgnoreRequest
+        return response
+
+    def process_exception(self, request, exception, spider):
+        # Called when a download handler or a process_request()
+        # (from other downloader middleware) raises an exception.
+
+        # Must either:
+        # - return None: continue processing this exception
+        # - return a Response object: stops process_exception() chain
+        # - return a Request object: stops process_exception() chain
+        pass
+
+    def spider_opened(self, spider):
+        spider.logger.info('Spider opened: %s' % spider.name)
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/pipelines.py b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/pipelines.py
@@ -0,0 +1,93 @@
+from itemadapter import ItemAdapter
+from scrapy.exceptions import DropItem
+
+## Storing to DB
+import mysql.connector ## MySQL
+import psycopg2 ## Postgres
+
+class PriceToUSDPipeline:
+
+    gbpToUsdRate = 1.3
+
+    def process_item(self, item, spider):
+        adapter = ItemAdapter(item)
+        if adapter.get('price'):
+
+            #converting the price to a float
+            floatPrice = float(adapter['price'])
+
+            #converting the price from gbp to usd using our hard coded exchange rate
+            adapter['price'] = floatPrice * self.gbpToUsdRate
+
+            return item
+        else:
+            raise DropItem(f"Missing price in {item}")
+
+
+class DuplicatesPipeline:
+
+    def __init__(self):
+        self.names_seen = set()
+
+    def process_item(self, item, spider):
+        adapter = ItemAdapter(item)
+        if adapter['name'] in self.names_seen:
+            raise DropItem(f"Duplicate item found: {item!r}")
+        else:
+            self.names_seen.add(adapter['name'])
+            return item
+
+class SavingToMySQLPipeline(object):
+
+    def __init__(self):
+        self.create_connection()
+
+    def create_connection(self):
+        self.conn = mysql.connector.connect(
+            host = 'localhost',
+            user = 'root',
+            password = '123456',
+            database = 'chocolate_scraping'
+        )
+        self.curr = self.conn.cursor()
+
+    def process_item(self, item, spider):
+        self.store_db(item)
+        #we need to return the item below as Scrapy expects us to!
+        return item
+
+    def store_in_db(self, item):
+        self.curr.execute(""" insert into chocolate_products values (%s,%s,%s)""", (
+            item["title"][0],
+            item["price"][0],
+            item["url"][0]
+        ))
+        self.conn.commit()
+
+
+class SavingToPostgresPipeline(object):
+
+    def __init__(self):
+        self.create_connection()
+
+
+    def create_connection(self):
+        conn = psycopg2.connect(
+            host="localhost",
+            database="chocolate_scraping",
+            user="root",
+            password="123456")
+
+
+    def process_item(self, item, spider):
+        self.store_db(item)
+        #we need to return the item below as scrapy expects us to!
+        return item
+
+    def store_in_db(self, item):
+        self.curr.execute(""" insert into chocolate_products values (%s,%s,%s)""", (
+            item["title"][0],
+            item["price"][0],
+            item["url"][0]
+        ))
+        self.conn.commit()
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/settings.py b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/settings.py
@@ -0,0 +1,62 @@
+# Scrapy settings for chocolatescraper project
+#
+# For simplicity, this file contains only settings considered important or
+# commonly used. You can find more settings consulting the documentation:
+#
+#     https://docs.scrapy.org/en/latest/topics/settings.html
+#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
+#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html
+
+BOT_NAME = 'chocolatescraper'
+
+SPIDER_MODULES = ['chocolatescraper.spiders']
+NEWSPIDER_MODULE = 'chocolatescraper.spiders'
+
+
+# Crawl responsibly by identifying yourself (and your website) on the user-agent
+#USER_AGENT = 'chocolatescraper (+http://www.yourdomain.com)'
+
+# Obey robots.txt rules
+ROBOTSTXT_OBEY = True
+
+
+# To Storing in AWS S3 Bucket
+AWS_ACCESS_KEY_ID = 'myaccesskeyhere'
+AWS_SECRET_ACCESS_KEY = 'mysecretkeyhere'
+
+
+
+# Configure item pipelines
+# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
+ITEM_PIPELINES = {
+    'chocolatescraper.pipelines.PriceToUSDPipeline': 100,
+    'chocolatescraper.pipelines.DuplicatesPipeline': 200,
+    # 'chocolatescraper.pipelines.SavingToMySQLPipeline': 300,
+    # 'chocolatescraper.pipelines.SavingToPostgresPipeline': 300,
+}
+
+# Add Your ScrapeOps API key
+SCRAPEOPS_API_KEY = 'YOUR-API-KEY-HERE'
+
+
+# Add In The ScrapeOps Extension
+EXTENSIONS = {
+'scrapeops_scrapy.extension.ScrapeOpsMonitor': 500, 
+}
+
+
+
+DOWNLOADER_MIDDLEWARES = {
+
+    ## Rotating User Agents
+    # 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
+    # 'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,
+
+    ## Rotating Free Proxies
+    # 'scrapy_proxy_pool.middlewares.ProxyPoolMiddleware': 610,
+    # 'scrapy_proxy_pool.middlewares.BanDetectionMiddleware': 620,
+
+    'scrapeops_scrapy.middleware.retry.RetryMiddleware': 550,
+    'scrapy.downloadermiddlewares.retry.RetryMiddleware': None,
+}
+
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/spiders/__init__.py b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/spiders/__init__.py
@@ -0,0 +1,4 @@
+# This package will contain the spiders of your Scrapy project
+#
+# Please refer to the documentation for information on how to create and manage
+# your spiders.
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/spiders/chocolatespider.py b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/chocolatescraper/spiders/chocolatespider.py
@@ -0,0 +1,38 @@
+import scrapy
+from chocolatescraper.itemloaders import ChocolateProductLoader
+from chocolatescraper.items import ChocolateProduct  
+from urllib.parse import urlencode
+ 
+API_KEY = 'YOUR_API_KEY'
+
+def get_proxy_url(url):
+    payload = {'api_key': API_KEY, 'url': url}
+    proxy_url = 'https://proxy.scrapeops.io/v1/?' + urlencode(payload)
+    return proxy_url
+
+class ChocolateSpider(scrapy.Spider):
+
+   # The name of the spider
+   name = 'chocolatespider'
+
+   # These are the urls that we will start scraping
+   def start_requests(self):
+        start_url = 'https://www.chocolate.co.uk/collections/all'
+        yield scrapy.Request(url=get_proxy_url(start_url), callback=self.parse)
+
+
+   def parse(self, response):
+       products = response.css('product-item')
+
+       for product in products:
+            chocolate = ChocolateProductLoader(item=ChocolateProduct(), selector=product)
+            chocolate.add_css('name', "a.product-item-meta__title::text")
+            chocolate.add_css('price', 'span.price', re='<span class="price">\n              <span class="visually-hidden">Sale price</span>(.*)</span>')
+            chocolate.add_css('url', 'div.product-item-meta a::attr(href)')
+            yield chocolate.load_item()
+
+       next_page = response.css('[rel="next"] ::attr(href)').get()
+
+       if next_page is not None:
+           next_page_url = 'https://www.chocolate.co.uk' + next_page
+           yield response.follow(get_proxy_url(next_page_url), callback=self.parse)
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/requirements.txt b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/requirements.txt
diff --git a/1_Beginner_Series/part_5__deployment_scheduling_monitoring/scrapy.cfg b/1_Beginner_Series/part_5__deployment_scheduling_monitoring/scrapy.cfg
@@ -0,0 +1,16 @@
+# Automatically created by: scrapy startproject
+#
+# For more information about the [deploy] section see:
+# https://scrapyd.readthedocs.io/en/latest/deploy.html
+
+[scrapyd]
+application = scrapy_heroku.app.application
+
+
+[settings]
+default = chocolatescraper.settings
+
+[deploy]
+url = http://chocolate-scraper-tut.herokuapp.com:80/
+project = chocolatescraper
+