flairNLP
diff --git a/‎docs/supported_publishers.md‎
Lines changed: 19 additions & 0 deletions b/‎docs/supported_publishers.md‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎src/fundus/publishers/de/__init__.py‎
Lines changed: 11 additions & 0 deletions b/‎src/fundus/publishers/de/__init__.py‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎src/fundus/publishers/de/der_freitag.py‎
Lines changed: 57 additions & 0 deletions b/‎src/fundus/publishers/de/der_freitag.py‎
Lines changed: 57 additions & 0 deletions
@@ -1361,6 +1361,25 @@
       <td>&#160;</td>
       <td>&#160;</td>
     </tr>
+    <tr>
+      <td>
+        <code>DerFreitag</code>
+      </td>
+      <td>
+        <div>der Freitag</div>
+      </td>
+      <td>
+        <a href="https://www.freitag.de/">
+          <span>www.freitag.de</span>
+        </a>
+      </td>
+      <td>
+        <code>de</code>
+      </td>
+      <td>&#160;</td>
+      <td>&#160;</td>
+      <td>&#160;</td>
+    </tr>
     <tr>
       <td>
         <code>NetzpolitikOrg</code>
 
@@ -12,6 +12,7 @@
 from .boersenzeitung import BoersenZeitungParser
 from .br import BRParser
 from .business_insider_de import BusinessInsiderDEParser
+from .der_freitag import DerFreitagParser
 from .die_welt import DieWeltParser
 from .die_zeit import DieZeitParser
 from .dw import DWParser
@@ -605,3 +606,13 @@ class DE(metaclass=PublisherGroup):
             Sitemap("https://www.gamestar.de/artikel_archiv_index.xml"),
         ],
     )
+
+    DerFreitag = Publisher(
+        name="der Freitag",
+        domain="https://www.freitag.de/",
+        parser=DerFreitagParser,
+        sources=[
+            RSSFeed("https://www.freitag.de/@@RSS"),
+            Sitemap("https://www.freitag.de/sitemap.xml", sitemap_filter=inverse(regex_filter("sitemap-articles"))),
+        ],
+    )
@@ -0,0 +1,57 @@
+from datetime import date, datetime
+from typing import List, Optional
+
+from lxml.cssselect import CSSSelector
+from lxml.etree import XPath
+
+from fundus.parser import ArticleBody, BaseParser, Image, ParserProxy, attribute
+from fundus.parser.utility import (
+    extract_article_body_with_selector,
+    generic_author_parsing,
+    generic_date_parsing,
+    image_extraction,
+)
+
+
+class DerFreitagParser(ParserProxy):
+    class V1(BaseParser):
+        _summary_selector = CSSSelector("header > p.bc-article-intro__text")
+        _paragraph_selector = CSSSelector("div.bo-article-text > p")
+        _subheadline_selector = CSSSelector("div.bo-article-text > h2")
+
+        @attribute
+        def title(self) -> Optional[str]:
+            return self.precomputed.meta.get("og:title")
+
+        @attribute
+        def body(self) -> Optional[ArticleBody]:
+            return extract_article_body_with_selector(
+                self.precomputed.doc,
+                summary_selector=self._summary_selector,
+                subheadline_selector=self._subheadline_selector,
+                paragraph_selector=self._paragraph_selector,
+            )
+
+        @attribute
+        def authors(self) -> List[str]:
+            return generic_author_parsing(self.precomputed.ld.bf_search("author"))
+
+        @attribute
+        def publishing_date(self) -> Optional[datetime]:
+            return generic_date_parsing(self.precomputed.ld.bf_search("datePublished"))
+
+        @attribute
+        def topics(self) -> List[str]:
+            return self.precomputed.ld.bf_search("keywords")
+
+        @attribute
+        def images(self) -> List[Image]:
+            return image_extraction(
+                doc=self.precomputed.doc,
+                paragraph_selector=self._paragraph_selector,
+                upper_boundary_selector=CSSSelector("header.bc-article-intro"),
+                lower_boundary_selector=CSSSelector("span.freitag-article-end"),
+                image_selector=CSSSelector("figure img,div[role='figure'] img"),
+                caption_selector=XPath("./ancestor::figure//figcaption//span[@class='bo-image__caption__desc']"),
+                author_selector=XPath("./ancestor::figure//figcaption//span[@class='bo-image__caption__credit']"),
+            )