From 371e39304151be8e35af6e4da541a803b96c6b4c Mon Sep 17 00:00:00 2001
From: Yaniv Israel <yaniv@webhose.io>
Date: Sun, 3 Oct 2021 14:20:00 +0300
Subject: [PATCH 1/8] adding get_relevant_date method

---
 articleDateExtractor/__init__.py | 51 ++++++++++++++++++++++++++++----
 setup.py                         |  2 +-
 2 files changed, 47 insertions(+), 6 deletions(-)

diff --git a/articleDateExtractor/__init__.py b/articleDateExtractor/__init__.py
index 201133a..a034fe1 100644
--- a/articleDateExtractor/__init__.py
+++ b/articleDateExtractor/__init__.py
@@ -2,6 +2,8 @@
 
 import re,json
 from dateutil.parser import parse
+from datetime import datetime
+import pytz
 
 #try except for different urllib under python3 and python2
 try:
@@ -220,10 +222,7 @@ def extractArticlePublishedDate(articleLink, html = None):
         articleDate = _extractFromURL(articleLink)
 
         if html is None:
-            request = urllib.Request(articleLink)
-            # Using a browser user agent, decreases the change of sites blocking this request - just a suggestion
-            # request.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36')
-            html = urllib.build_opener().open(request).read()
+            html = _get_html_response(articleLink)
 
         parsedHTML = BeautifulSoup(html,"lxml")
 
@@ -243,10 +242,52 @@ def extractArticlePublishedDate(articleLink, html = None):
     return articleDate
 
 
+def _get_html_response(url):
+    """
+    simple request execution
+    :param url: string of url
+    :return: html response
+    """
+    request = urllib.Request(url)
+    html = urllib.build_opener().open(request).read()
+    
+    return html
+
+
+
+def get_relevant_date(url, html=None):
+    """
+    retrieves the most relevant published date for an article
+    :param url: string of url
+    :param html: string of html response (to avoid request execution)
+    :return: oldest date from the following options:
+        1) date in the url
+        2) headers of the response (json-ld, meta, etc.)
+        3) html known tags
+    """
+    # getting date by input url
+    url_base_date = _extractFromURL(url)
+
+    # bs parsing for extended data
+    html = html or _get_html_response(url)
+    parsed_html = BeautifulSoup(html, "lxml")
+
+    # extended dates (json-ld, html tags, etc.)
+    jsonld_base_date = _extractFromLDJson(parsed_html)
+    meta_base_date = _extractFromMeta(parsed_html)
+    html_tags_base_date = _extractFromHTMLTag(parsed_html)
+
+    possible_dates = [url_base_date, jsonld_base_date, meta_base_date, html_tags_base_date]
+    possible_dates = filter(lambda _date: _date is not None and isinstance(_date, datetime), possible_dates)
+    possible_dates = [_date.replace(tzinfo=pytz.UTC) for _date in possible_dates]
+    print(possible_dates)
+
+    # return oldest date
+    return min(possible_dates)
 
 
 if __name__ == '__main__':
     d = extractArticlePublishedDate("http://techcrunch.com/2015/11/30/atlassian-share-price/")
     print(d)
 
-    
\ No newline at end of file
+    
diff --git a/setup.py b/setup.py
index cc9431e..834a6e2 100644
--- a/setup.py
+++ b/setup.py
@@ -11,7 +11,7 @@
 setup(
     name='articleDateExtractor',
     packages=['articleDateExtractor'],
-    version='0.20',
+    version='0.21.0',
     author='Ran Geva',
     author_email='ran@webhose.io, yitao.sun@yahoo.com, wilson.s.shilo@gmail.com',
     url='https://github.com/Webhose/article-date-extractor',

From bfb7b389a37241c3e106d5d41cbc57bebef2102b Mon Sep 17 00:00:00 2001
From: Yaniv Israel <yaniv@webhose.io>
Date: Mon, 24 Apr 2023 18:49:33 +0300
Subject: [PATCH 2/8] rename package to webz-article-date-extractor

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 834a6e2..4bba61b 100644
--- a/setup.py
+++ b/setup.py
@@ -9,7 +9,7 @@
     readme = f.read()
 
 setup(
-    name='articleDateExtractor',
+    name='webz-article-date-extractor',
     packages=['articleDateExtractor'],
     version='0.21.0',
     author='Ran Geva',

From ed7942dfb40a72226d35731dff2f4678f621439c Mon Sep 17 00:00:00 2001
From: orzinger <or@webz.io>
Date: Thu, 27 Apr 2023 13:53:10 +0300
Subject: [PATCH 3/8] add domain extraction

---
 articleDateExtractor/__init__.py | 101 ++++++++++++++-----------------
 1 file changed, 46 insertions(+), 55 deletions(-)

diff --git a/articleDateExtractor/__init__.py b/articleDateExtractor/__init__.py
index a034fe1..078fb11 100644
--- a/articleDateExtractor/__init__.py
+++ b/articleDateExtractor/__init__.py
@@ -1,24 +1,24 @@
 __author__ = 'Ran Geva'
 
-import re,json
+import re, json
 from dateutil.parser import parse
 from datetime import datetime
+from webhose_metrics import count as metrics_count
 import pytz
+from urlparse import urlparse
 
-#try except for different urllib under python3 and python2
+# try except for different urllib under python3 and python2
 try:
     import urllib.request as urllib
 except ImportError:
     import urllib2 as urllib
 
-
 try:
     from bs4 import BeautifulSoup
 except ImportError:
     from BeautifulSoup import BeautifulSoup
 
 
-
 def parseStrDate(dateString):
     try:
         dateTimeObj = parse(dateString)
@@ -26,15 +26,18 @@ def parseStrDate(dateString):
     except:
         return None
 
+
 # Try to extract from the article URL - simple but might work as a fallback
 def _extractFromURL(url):
-
-    #Regex by Newspaper3k  - https://github.com/codelucas/newspaper/blob/master/newspaper/urls.py
-    m = re.search(r'([\./\-_]{0,1}(19|20)\d{2})[\./\-_]{0,1}(([0-3]{0,1}[0-9][\./\-_])|(\w{3,5}[\./\-_]))([0-3]{0,1}[0-9][\./\-]{0,1})?', url)
+    # Regex by Newspaper3k  - https://github.com/codelucas/newspaper/blob/master/newspaper/urls.py
+    m = re.search(
+        r'([\./\-_]{0,1}(19|20)\d{2})[\./\-_]{0,1}(([0-3]{0,1}[0-9][\./\-_])|(\w{3,5}[\./\-_]))([0-3]{0,1}[0-9][\./\-]{0,1})?',
+        url)
     if m:
         return parseStrDate(m.group(0))
 
-    return  None
+    return None
+
 
 def _extractFromLDJson(parsedHTML):
     jsonDate = None
@@ -59,13 +62,10 @@ def _extractFromLDJson(parsedHTML):
     except Exception as e:
         return None
 
-
-
     return jsonDate
 
 
 def _extractFromMeta(parsedHTML):
-
     metaDate = None
     for meta in parsedHTML.findAll("meta"):
         metaName = meta.get('name', '').lower()
@@ -73,100 +73,92 @@ def _extractFromMeta(parsedHTML):
         httpEquiv = meta.get('http-equiv', '').lower()
         metaProperty = meta.get('property', '').lower()
 
-
-        #<meta name="pubdate" content="2015-11-26T07:11:02Z" >
+        # <meta name="pubdate" content="2015-11-26T07:11:02Z" >
         if 'pubdate' == metaName:
             metaDate = meta['content'].strip()
             break
 
-
-        #<meta name='publishdate' content='201511261006'/>
+        # <meta name='publishdate' content='201511261006'/>
         if 'publishdate' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta name="timestamp"  data-type="date" content="2015-11-25 22:40:25" />
+        # <meta name="timestamp"  data-type="date" content="2015-11-25 22:40:25" />
         if 'timestamp' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta name="DC.date.issued" content="2015-11-26">
+        # <meta name="DC.date.issued" content="2015-11-26">
         if 'dc.date.issued' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta property="article:published_time"  content="2015-11-25" />
+        # <meta property="article:published_time"  content="2015-11-25" />
         if 'article:published_time' == metaProperty:
             metaDate = meta['content'].strip()
             break
-            #<meta name="Date" content="2015-11-26" />
+            # <meta name="Date" content="2015-11-26" />
         if 'date' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta property="bt:pubDate" content="2015-11-26T00:10:33+00:00">
+        # <meta property="bt:pubDate" content="2015-11-26T00:10:33+00:00">
         if 'bt:pubdate' == metaProperty:
             metaDate = meta['content'].strip()
             break
-            #<meta name="sailthru.date" content="2015-11-25T19:56:04+0000" />
+            # <meta name="sailthru.date" content="2015-11-25T19:56:04+0000" />
         if 'sailthru.date' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta name="article.published" content="2015-11-26T11:53:00.000Z" />
+        # <meta name="article.published" content="2015-11-26T11:53:00.000Z" />
         if 'article.published' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta name="published-date" content="2015-11-26T11:53:00.000Z" />
+        # <meta name="published-date" content="2015-11-26T11:53:00.000Z" />
         if 'published-date' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta name="article.created" content="2015-11-26T11:53:00.000Z" />
+        # <meta name="article.created" content="2015-11-26T11:53:00.000Z" />
         if 'article.created' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta name="article_date_original" content="Thursday, November 26, 2015,  6:42 AM" />
+        # <meta name="article_date_original" content="Thursday, November 26, 2015,  6:42 AM" />
         if 'article_date_original' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta name="cXenseParse:recs:publishtime" content="2015-11-26T14:42Z"/>
+        # <meta name="cXenseParse:recs:publishtime" content="2015-11-26T14:42Z"/>
         if 'cxenseparse:recs:publishtime' == metaName:
             metaDate = meta['content'].strip()
             break
 
-        #<meta name="DATE_PUBLISHED" content="11/24/2015 01:05AM" />
+        # <meta name="DATE_PUBLISHED" content="11/24/2015 01:05AM" />
         if 'date_published' == metaName:
             metaDate = meta['content'].strip()
             break
 
-
-        #<meta itemprop="datePublished" content="2015-11-26T11:53:00.000Z" />
+        # <meta itemprop="datePublished" content="2015-11-26T11:53:00.000Z" />
         if 'datepublished' == itemProp:
             metaDate = meta['content'].strip()
             break
 
-
-        #<meta itemprop="datePublished" content="2015-11-26T11:53:00.000Z" />
+        # <meta itemprop="datePublished" content="2015-11-26T11:53:00.000Z" />
         if 'datecreated' == itemProp:
             metaDate = meta['content'].strip()
             break
 
-
-
-
-        #<meta property="og:image" content="http://www.dailytimes.com.pk/digital_images/400/2015-11-26/norway-return-number-of-asylum-seekers-to-pakistan-1448538771-7363.jpg"/>
+        # <meta property="og:image" content="http://www.dailytimes.com.pk/digital_images/400/2015-11-26/norway-return-number-of-asylum-seekers-to-pakistan-1448538771-7363.jpg"/>
         if 'og:image' == metaProperty or "image" == itemProp:
             url = meta['content'].strip()
             possibleDate = _extractFromURL(url)
             if possibleDate is not None:
-                return  possibleDate
+                return possibleDate
 
-
-        #<meta http-equiv="data" content="10:27:15 AM Thursday, November 26, 2015">
+        # <meta http-equiv="data" content="10:27:15 AM Thursday, November 26, 2015">
         if 'date' == httpEquiv:
             metaDate = meta['content'].strip()
             break
@@ -176,8 +168,9 @@ def _extractFromMeta(parsedHTML):
 
     return None
 
+
 def _extractFromHTMLTag(parsedHTML):
-    #<time>
+    # <time>
     for time in parsedHTML.findAll("time"):
         datetime = time.get('datetime', '')
         if len(datetime) > 0:
@@ -187,7 +180,6 @@ def _extractFromHTMLTag(parsedHTML):
         if len(datetime) > 0 and datetime[0].lower() == "timestamp":
             return parseStrDate(time.string)
 
-
     tag = parsedHTML.find("span", {"itemprop": "datePublished"})
     if tag is not None:
         dateText = tag.get("content")
@@ -196,8 +188,9 @@ def _extractFromHTMLTag(parsedHTML):
         if dateText is not None:
             return parseStrDate(dateText)
 
-    #class=
-    for tag in parsedHTML.find_all(['span', 'p','div'], class_=re.compile("pubdate|timestamp|article_date|articledate|date",re.IGNORECASE)):
+    # class=
+    for tag in parsedHTML.find_all(['span', 'p', 'div'],
+                                   class_=re.compile("pubdate|timestamp|article_date|articledate|date", re.IGNORECASE)):
         dateText = tag.string
         if dateText is None:
             dateText = tag.text
@@ -205,15 +198,12 @@ def _extractFromHTMLTag(parsedHTML):
         possibleDate = parseStrDate(dateText)
 
         if possibleDate is not None:
-            return  possibleDate
-
-
+            return possibleDate
 
     return None
 
 
-def extractArticlePublishedDate(articleLink, html = None):
-
+def extractArticlePublishedDate(articleLink, html=None):
     print("Extracting date from " + articleLink)
 
     articleDate = None
@@ -224,7 +214,7 @@ def extractArticlePublishedDate(articleLink, html = None):
         if html is None:
             html = _get_html_response(articleLink)
 
-        parsedHTML = BeautifulSoup(html,"lxml")
+        parsedHTML = BeautifulSoup(html, "lxml")
 
         possibleDate = _extractFromLDJson(parsedHTML)
         if possibleDate is None:
@@ -232,12 +222,11 @@ def extractArticlePublishedDate(articleLink, html = None):
         if possibleDate is None:
             possibleDate = _extractFromHTMLTag(parsedHTML)
 
-
         articleDate = possibleDate
 
     except Exception as e:
         print("Exception in extractArticlePublishedDate for " + articleLink)
-        print(e.args)   
+        print(e.args)
 
     return articleDate
 
@@ -250,9 +239,8 @@ def _get_html_response(url):
     """
     request = urllib.Request(url)
     html = urllib.build_opener().open(request).read()
-    
-    return html
 
+    return html
 
 
 def get_relevant_date(url, html=None):
@@ -282,12 +270,15 @@ def get_relevant_date(url, html=None):
     possible_dates = [_date.replace(tzinfo=pytz.UTC) for _date in possible_dates]
     print(possible_dates)
 
+    metrics_count(
+        name="articleDateExtractor_success_total" if possible_dates is not None else "articleDateExtractor_failed_total",
+        labels={"domain": urlparse(url).netloc},
+        value=1)
+
     # return oldest date
     return min(possible_dates)
 
 
 if __name__ == '__main__':
-    d = extractArticlePublishedDate("http://techcrunch.com/2015/11/30/atlassian-share-price/")
+    d = get_relevant_date("http://techcrunch.com/2015/11/30/atlassian-share-price/")
     print(d)
-
-    

From e7c0ff486ccd4b4662b76840e85d59bd4455c6b5 Mon Sep 17 00:00:00 2001
From: orzinger <or@webz.io>
Date: Thu, 27 Apr 2023 17:05:31 +0300
Subject: [PATCH 4/8] use of etld

---
 articleDateExtractor/__init__.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/articleDateExtractor/__init__.py b/articleDateExtractor/__init__.py
index 078fb11..8cef94a 100644
--- a/articleDateExtractor/__init__.py
+++ b/articleDateExtractor/__init__.py
@@ -6,6 +6,7 @@
 from webhose_metrics import count as metrics_count
 import pytz
 from urlparse import urlparse
+from omgili.tld import etld
 
 # try except for different urllib under python3 and python2
 try:
@@ -271,8 +272,8 @@ def get_relevant_date(url, html=None):
     print(possible_dates)
 
     metrics_count(
-        name="articleDateExtractor_success_total" if possible_dates is not None else "articleDateExtractor_failed_total",
-        labels={"domain": urlparse(url).netloc},
+        name="articleDateExtractor_success_total" if len(possible_dates) != 0 else "articleDateExtractor_failed_total",
+        labels={"domain": etld.domain_name(url)},
         value=1)
 
     # return oldest date

From 91e51ad53aa862d6fb1cd733a5847b9ba8f91732 Mon Sep 17 00:00:00 2001
From: orzinger <or@webz.io>
Date: Thu, 27 Apr 2023 17:09:07 +0300
Subject: [PATCH 5/8] change to 21.1 and add etld

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 4bba61b..1cdebd5 100644
--- a/setup.py
+++ b/setup.py
@@ -11,7 +11,7 @@
 setup(
     name='webz-article-date-extractor',
     packages=['articleDateExtractor'],
-    version='0.21.0',
+    version='0.21.1',
     author='Ran Geva',
     author_email='ran@webhose.io, yitao.sun@yahoo.com, wilson.s.shilo@gmail.com',
     url='https://github.com/Webhose/article-date-extractor',

From a42bbce998238f407c27ef36ee875412e3c8a98e Mon Sep 17 00:00:00 2001
From: orzinger <or@webz.io>
Date: Sun, 30 Apr 2023 11:12:38 +0300
Subject: [PATCH 6/8] change back to netloc use

---
 articleDateExtractor/__init__.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/articleDateExtractor/__init__.py b/articleDateExtractor/__init__.py
index 8cef94a..0e57cca 100644
--- a/articleDateExtractor/__init__.py
+++ b/articleDateExtractor/__init__.py
@@ -273,7 +273,7 @@ def get_relevant_date(url, html=None):
 
     metrics_count(
         name="articleDateExtractor_success_total" if len(possible_dates) != 0 else "articleDateExtractor_failed_total",
-        labels={"domain": etld.domain_name(url)},
+        labels={"domain": urlparse(url).netloc},
         value=1)
 
     # return oldest date

From 8d4c20f1cf363a6590adbde47e48530a61cc01aa Mon Sep 17 00:00:00 2001
From: orzinger <or@webz.io>
Date: Tue, 18 Jul 2023 11:04:10 +0300
Subject: [PATCH 7/8] add 'li' attribute

---
 articleDateExtractor/__init__.py | 117 +++++++++++++++++++------------
 setup.py                         |   2 +-
 2 files changed, 75 insertions(+), 44 deletions(-)

diff --git a/articleDateExtractor/__init__.py b/articleDateExtractor/__init__.py
index 0e57cca..49474c4 100644
--- a/articleDateExtractor/__init__.py
+++ b/articleDateExtractor/__init__.py
@@ -2,11 +2,16 @@
 
 import re, json
 from dateutil.parser import parse
+import dateparser
 from datetime import datetime
 from webhose_metrics import count as metrics_count
 import pytz
-from urlparse import urlparse
-from omgili.tld import etld
+from logger import Logger
+
+datetime_html_attributes_formats = "pub+|article+|date+|time+|tms+|mod+"
+
+logger_handler = Logger(name="article_date_extractor_logger", path="/var/log/webhose/articleDateExtractor_logs",
+                        level="DEBUG").get_logger()
 
 # try except for different urllib under python3 and python2
 try:
@@ -15,19 +20,37 @@
     import urllib2 as urllib
 
 try:
-    from bs4 import BeautifulSoup
+    from bs4 import BeautifulSoup, Tag
 except ImportError:
-    from BeautifulSoup import BeautifulSoup
+    from BeautifulSoup import BeautifulSoup, Tag
 
 
-def parseStrDate(dateString):
+def parse_date_by_daetutil(dateString):
     try:
         dateTimeObj = parse(dateString)
         return dateTimeObj
-    except:
+    except Exception as err:
+        return None
+
+
+def parse_date_by_dateparser(dateString):
+    try:
+        dateTimeObj = dateparser.parse(dateString)
+        return dateTimeObj
+    except Exception as err:
         return None
 
 
+def parseStrDate(dateString):
+    dateTimeObj = None
+    if dateString is not None:
+        dateString = dateString.rstrip().lstrip()
+        dateTimeObj = parse_date_by_daetutil(dateString)
+        if dateTimeObj is None or "":
+            dateTimeObj = parse_date_by_dateparser(dateString)
+    return dateTimeObj
+
+
 # Try to extract from the article URL - simple but might work as a fallback
 def _extractFromURL(url):
     # Regex by Newspaper3k  - https://github.com/codelucas/newspaper/blob/master/newspaper/urls.py
@@ -40,30 +63,32 @@ def _extractFromURL(url):
     return None
 
 
+def _extract_by_tag(tag, parsedHTML, attr):
+    for tag_span in parsedHTML.find_all(tag, **{attr: re.compile(datetime_html_attributes_formats, re.IGNORECASE)}):
+        dateText = tag_span.string or tag_span.text
+        return parseStrDate(dateText)
+
+
 def _extractFromLDJson(parsedHTML):
-    jsonDate = None
     try:
         script = parsedHTML.find('script', type='application/ld+json')
         if script is None:
+            logger_handler.debug("ERROR: [_extractFromLDJson] - script none")
             return None
+        if len(script.text):
+            script_data = json.loads(script.text)
+        elif len(script.string):
+            script_data = json.loads(script.string)
+        if isinstance(script_data, dict):
+            script_data = [script_data]
+        for data in script_data:
+            jsonDate = parseStrDate(data.get('dateCreated', None)) or parseStrDate(data.get('datePublished', None))
+            if jsonDate:
+                return jsonDate
+    except Exception as err:
+        logger_handler.debug("ERROR: [_extractFromLDJson] - {err}".format(err=err))
 
-        data = json.loads(script.text)
-
-        try:
-            jsonDate = parseStrDate(data['datePublished'])
-        except Exception as e:
-            pass
-
-        try:
-            jsonDate = parseStrDate(data['dateCreated'])
-        except Exception as e:
-            pass
-
-
-    except Exception as e:
-        return None
-
-    return jsonDate
+    return None
 
 
 def _extractFromMeta(parsedHTML):
@@ -164,22 +189,29 @@ def _extractFromMeta(parsedHTML):
             metaDate = meta['content'].strip()
             break
 
+        logger_handler.debug(
+            "ERROR-INFO- [_extractFromMeta] - not found properties for meta: {metadata}".format(metadata=meta))
+
     if metaDate is not None:
         return parseStrDate(metaDate)
 
+    logger_handler.debug("ERROR: [_extractFromMeta] - Failed to parse from meta properties")
     return None
 
 
 def _extractFromHTMLTag(parsedHTML):
+    list_of_times_attribute = parsedHTML.findAll("time")
     # <time>
-    for time in parsedHTML.findAll("time"):
+    for time in list_of_times_attribute:
         datetime = time.get('datetime', '')
         if len(datetime) > 0:
             return parseStrDate(datetime)
 
         datetime = time.get('class', '')
-        if len(datetime) > 0 and datetime[0].lower() == "timestamp":
-            return parseStrDate(time.string)
+        if len(datetime) > 0:
+            # and datetime[0].lower() == "timestamp":
+            date_string = time.string or time.text
+            return parseStrDate(date_string)
 
     tag = parsedHTML.find("span", {"itemprop": "datePublished"})
     if tag is not None:
@@ -189,18 +221,15 @@ def _extractFromHTMLTag(parsedHTML):
         if dateText is not None:
             return parseStrDate(dateText)
 
-    # class=
-    for tag in parsedHTML.find_all(['span', 'p', 'div'],
-                                   class_=re.compile("pubdate|timestamp|article_date|articledate|date", re.IGNORECASE)):
-        dateText = tag.string
-        if dateText is None:
-            dateText = tag.text
+    possibleDate = _extract_by_tag(['span', 'p', 'div'], parsedHTML, attr='class_')
+    if possibleDate is not None and possibleDate != '':
+        return possibleDate
 
-        possibleDate = parseStrDate(dateText)
-
-        if possibleDate is not None:
-            return possibleDate
+    possibleDate = _extract_by_tag(['span', 'p', 'div', 'li'], parsedHTML, attr='id')
+    if possibleDate is not None and possibleDate != '':
+        return possibleDate
 
+    logger_handler.debug("ERROR- [_extractFromHTMLTag] - Failed to parse from HTML tags")
     return None
 
 
@@ -226,6 +255,8 @@ def extractArticlePublishedDate(articleLink, html=None):
         articleDate = possibleDate
 
     except Exception as e:
+        logger_handler.debug(
+            "ERROR-INFO- [extractArticlePublishedDate] - Exception for {link}".format(link=articleLink))
         print("Exception in extractArticlePublishedDate for " + articleLink)
         print(e.args)
 
@@ -240,7 +271,7 @@ def _get_html_response(url):
     """
     request = urllib.Request(url)
     html = urllib.build_opener().open(request).read()
-
+    logger_handler.info("Request - {url}".format(url=url))
     return html
 
 
@@ -256,7 +287,6 @@ def get_relevant_date(url, html=None):
     """
     # getting date by input url
     url_base_date = _extractFromURL(url)
-
     # bs parsing for extended data
     html = html or _get_html_response(url)
     parsed_html = BeautifulSoup(html, "lxml")
@@ -269,17 +299,18 @@ def get_relevant_date(url, html=None):
     possible_dates = [url_base_date, jsonld_base_date, meta_base_date, html_tags_base_date]
     possible_dates = filter(lambda _date: _date is not None and isinstance(_date, datetime), possible_dates)
     possible_dates = [_date.replace(tzinfo=pytz.UTC) for _date in possible_dates]
-    print(possible_dates)
 
     metrics_count(
         name="articleDateExtractor_success_total" if len(possible_dates) != 0 else "articleDateExtractor_failed_total",
-        labels={"domain": urlparse(url).netloc},
         value=1)
 
+    if len(possible_dates) == 0:
+        logger_handler.info("[get_relevant_date] - None possible dates for {url}".format(url=url))
+        return None
+
     # return oldest date
     return min(possible_dates)
 
 
 if __name__ == '__main__':
-    d = get_relevant_date("http://techcrunch.com/2015/11/30/atlassian-share-price/")
-    print(d)
+    d = get_relevant_date("https://elegantessence.tumblr.com/post/716279737919602688")
diff --git a/setup.py b/setup.py
index 1cdebd5..026ffc9 100644
--- a/setup.py
+++ b/setup.py
@@ -11,7 +11,7 @@
 setup(
     name='webz-article-date-extractor',
     packages=['articleDateExtractor'],
-    version='0.21.1',
+    version='0.21.2',
     author='Ran Geva',
     author_email='ran@webhose.io, yitao.sun@yahoo.com, wilson.s.shilo@gmail.com',
     url='https://github.com/Webhose/article-date-extractor',

From 1a64c5264a7342c100f2a9efb0a89750074d5d2a Mon Sep 17 00:00:00 2001
From: orzinger <or@webz.io>
Date: Thu, 10 Aug 2023 16:12:47 +0300
Subject: [PATCH 8/8] add logger.py

---
 articleDateExtractor/logger.py | 24 ++++++++++++++++++++++++
 1 file changed, 24 insertions(+)
 create mode 100644 articleDateExtractor/logger.py

diff --git a/articleDateExtractor/logger.py b/articleDateExtractor/logger.py
new file mode 100644
index 0000000..d4079e1
--- /dev/null
+++ b/articleDateExtractor/logger.py
@@ -0,0 +1,24 @@
+import logging
+import logging.handlers
+
+
+class Logger:
+
+    _DEFAULT_FORMATTER = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s")
+
+    def __init__(self, name, path, **kwargs):
+        self.my_logger = logging.getLogger(name)
+        self.filename = "{path}/{name}.log".format(path=path, name=name)
+        self._set_logger(**kwargs)
+
+    def _set_logger(self, **kwargs):
+        my_logger = self.my_logger
+        my_logger.setLevel(kwargs.get("level", 'DEBUG'))
+        formatter = kwargs.get("log_format", self._DEFAULT_FORMATTER)
+        handler_ins = logging.handlers.RotatingFileHandler(self.filename)
+        handler_ins.setFormatter(formatter)
+        self.my_logger.addHandler(handler_ins)
+        self.my_logger.propagate = False
+
+    def get_logger(self):
+        return self.my_logger