Merge pull request #800 from ghostsshadow/se-expressen

addie9800 · web-flow · commit 9ffac51ce18f · 2025-10-26T18:49:01.000+01:00
Add SE Expressen
diff --git a/docs/supported_publishers.md b/docs/supported_publishers.md
@@ -2766,6 +2766,44 @@
 </table>
 
 
+## SE-Publishers
+
+<table class="publishers se">
+  <thead>
+    <tr>
+      <th>Class&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;</th>
+      <th>Name&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;</th>
+      <th>URL&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;</th>
+      <th>Languages</th>
+      <th>Missing&#160;Attributes</th>
+      <th>Deprecated&#160;Attributes</th>
+      <th>Additional&#160;Attributes&#160;&#160;&#160;&#160;</th>
+    </tr>
+  </thead>
+  <tbody>
+    <tr>
+      <td>
+        <code>Expressen</code>
+      </td>
+      <td>
+        <div>Expressen</div>
+      </td>
+      <td>
+        <a href="https://www.expressen.se/">
+          <span>www.expressen.se</span>
+        </a>
+      </td>
+      <td>
+        <code>sv</code>
+      </td>
+      <td>&#160;</td>
+      <td>&#160;</td>
+      <td>&#160;</td>
+    </tr>
+  </tbody>
+</table>
+
+
 ## TR-Publishers
 
 <table class="publishers tr">
diff --git a/src/fundus/publishers/__init__.py b/src/fundus/publishers/__init__.py
@@ -32,6 +32,7 @@
 from fundus.publishers.pt import PT
 from fundus.publishers.py import PY
 from fundus.publishers.ru import RU
+from fundus.publishers.se import SE
 from fundus.publishers.tr import TR
 from fundus.publishers.tw import TW
 from fundus.publishers.tz import TZ
@@ -101,6 +102,7 @@ class PublisherCollection(metaclass=PublisherCollectionMeta):
     pt = PT
     py = PY
     ru = RU
+    se = SE
     tr = TR
     tw = TW
     tz = TZ
diff --git a/src/fundus/publishers/se/__init__.py b/src/fundus/publishers/se/__init__.py
@@ -0,0 +1,34 @@
+from fundus.publishers.base_objects import Publisher, PublisherGroup
+from fundus.scraping.filter import regex_filter
+from fundus.scraping.url import NewsMap, RSSFeed, Sitemap
+
+from .expressen import ExpressenParser
+
+
+class SE(metaclass=PublisherGroup):
+    default_language = "sv"
+
+    Expressen = Publisher(
+        name="Expressen",
+        domain="https://www.expressen.se/",
+        parser=ExpressenParser,
+        sources=[
+            RSSFeed("https://feeds.expressen.se/nyheter/"),
+            RSSFeed("https://feeds.expressen.se/gt"),
+            RSSFeed("https://feeds.expressen.se/kvp/"),
+            RSSFeed("https://feeds.expressen.se/sport/"),
+            RSSFeed("https://feeds.expressen.se/fotboll/"),
+            RSSFeed("https://feeds.expressen.se/hockey/"),
+            RSSFeed("https://feeds.expressen.se/noje/"),
+            RSSFeed("https://feeds.expressen.se/debatt/"),
+            RSSFeed("https://feeds.expressen.se/ledare/"),
+            RSSFeed("https://feeds.expressen.se/kultur/"),
+            RSSFeed("https://feeds.expressen.se/dinapengar/"),
+            RSSFeed("https://feeds.expressen.se/halsoliv/"),
+            RSSFeed("https://feeds.expressen.se/levabo/"),
+            RSSFeed("https://feeds.expressen.se/motor/"),
+            RSSFeed("https://feeds.expressen.se/allt-om-resor/"),
+            Sitemap("https://www.expressen.se/sitemap.xml", reverse=True),
+        ],
+        url_filter=regex_filter(r"/tv/|expressen-direkt"),
+    )
diff --git a/src/fundus/publishers/se/expressen.py b/src/fundus/publishers/se/expressen.py
@@ -0,0 +1,58 @@
+import datetime
+from typing import List, Optional
+
+from lxml.cssselect import CSSSelector
+from lxml.etree import XPath
+
+from fundus.parser import ArticleBody, BaseParser, ParserProxy, attribute
+from fundus.parser.data import Image
+from fundus.parser.utility import (
+    extract_article_body_with_selector,
+    generic_author_parsing,
+    generic_date_parsing,
+    generic_topic_parsing,
+    image_extraction,
+)
+
+
+class ExpressenParser(ParserProxy):
+    class V1(BaseParser):
+        _paragraph_selector = CSSSelector("div.article__body-text p")
+        _summary_selector = CSSSelector("div.article__preamble")
+        _subheadline_selector = CSSSelector("div.article__body-text h2")
+
+        @attribute
+        def body(self) -> Optional[ArticleBody]:
+            return extract_article_body_with_selector(
+                self.precomputed.doc,
+                paragraph_selector=self._paragraph_selector,
+                summary_selector=self._summary_selector,
+                subheadline_selector=self._subheadline_selector,
+            )
+
+        @attribute
+        def title(self) -> Optional[str]:
+            return self.precomputed.ld.bf_search("headline")
+
+        @attribute
+        def publishing_date(self) -> Optional[datetime.datetime]:
+            return generic_date_parsing(self.precomputed.ld.bf_search("datePublished"))
+
+        @attribute
+        def authors(self) -> List[str]:
+            return generic_author_parsing(self.precomputed.ld.bf_search("author"))
+
+        @attribute
+        def images(self) -> List[Image]:
+            return image_extraction(
+                doc=self.precomputed.doc,
+                paragraph_selector=self._paragraph_selector,
+                image_selector=XPath("//figure//img"),
+                caption_selector=XPath("./ancestor::figure//figcaption//div[@class='rich-image__description']"),
+                author_selector=XPath("./ancestor::figure//figcaption//div[@class='rich-image__credit']"),
+                upper_boundary_selector=CSSSelector("div.article__body-text"),
+            )
+
+        @attribute
+        def topics(self) -> List[str]:
+            return [topic.split("/")[-1] for topic in generic_topic_parsing(self.precomputed.ld.bf_search("keywords"))]
diff --git a/tests/resources/parser/test_data/se/Expressen.json b/tests/resources/parser/test_data/se/Expressen.json
@@ -0,0 +1,72 @@
+{
+  "V1": {
+    "authors": [
+      "viktor hedlund"
+    ],
+    "body": {
+      "summary": [
+        "Eleverna på privatskolan Lundsberg trängde på natten in och misshandlade flera andra elever, enligt åtalet.I sovrummen slog de skolkamraterna med skärp.Nu åtalas fem elever för misshandel och grovt hemfridsbrott."
+      ],
+      "sections": [
+        {
+          "headline": [],
+          "paragraphs": [
+            "De fem manliga eleverna i 18-årsåldern på internatskolan i värmländska Storfors misstänks för att vid flera tillfällen i vintras ha misshandlat andra elever på skolan.",
+            "I januari ska två av eleverna delat ut slag mot andra elever på ett elevhem samt i nära anslutning till middagen på Lundsberg.",
+            "Senare på natten stormade de fem åtalade in i två sovrum på ett elevhem, enligt åtalet. De var maskerade och började slå flera personer med nävar och skärp. En person kastades ner i golvet innan han blev misshandlad.",
+            "”Brottet bör bedömas som grovt eftersom inträngandet skett nattetid av flera maskerade gärningsmän i syfte att misshandla målsägandena”, står det i åtalet."
+          ]
+        },
+        {
+          "headline": [
+            "Fem elever stängdes av"
+          ],
+          "paragraphs": [
+            "En av de misstänkta åtalas också för att redan hösten 2024 tillsammans med flera andra trängt in i ett sovrum och misshandlat en elev. Han ska också ha filmat misshandeln och spridit det till andra elever.",
+            "I en av de misstänktas telefon har polisen hittat en konversation som enligt åklagaren visar på att motivet varit att ”'dom' har förolämpat 'oss' under en längre tid”.",
+            "I januari briserade nyheten om ”en allvarlig incident” på Lundsberg som ledde till att fem personer stängdes av. Expressen kunde då berätta att det hållits någon form av uppträdande som gick ut på att göra narr varandra och där de yngre eleverna ska ha drivit hårt med de äldres föräldrar.",
+            "Eleverna förnekar brott. Totalt är fem andra elever målsägande i åtalet."
+          ]
+        }
+      ]
+    },
+    "images": [
+      {
+        "versions": [
+          {
+            "url": "https://static.bonniernews.se/images/44/15/44152f97b643491cb91f2aeeac1e25f5/16x9/640@60.jpg",
+            "query_width": null,
+            "size": {
+              "width": 640,
+              "height": 0
+            },
+            "type": "image/jpeg"
+          },
+          {
+            "url": "https://static.bonniernews.se/images/44/15/44152f97b643491cb91f2aeeac1e25f5/16x9/1280@40.jpg",
+            "query_width": null,
+            "size": {
+              "width": 1280,
+              "height": 0
+            },
+            "type": "image/jpeg"
+          }
+        ],
+        "is_cover": true,
+        "description": null,
+        "caption": "Internatskolan Lundsberg.",
+        "authors": [
+          "LISA MATTISSON"
+        ],
+        "position": 907
+      }
+    ],
+    "publishing_date": "2025-10-23 08:23:39.074000+00:00",
+    "title": "Elever åtalas för misshandel på Lundsberg",
+    "topics": [
+      "sverige",
+      "lundsberg",
+      "misshandel & överfall"
+    ]
+  }
+}
diff --git a/tests/resources/parser/test_data/se/Expressen_2025_10_23.html.gz b/tests/resources/parser/test_data/se/Expressen_2025_10_23.html.gz
diff --git a/tests/resources/parser/test_data/se/meta.info b/tests/resources/parser/test_data/se/meta.info
@@ -0,0 +1,6 @@
+{
+  "Expressen_2025_10_23.html.gz": {
+    "url": "https://www.expressen.se/nyheter/sverige/elever-atalas-for-misshandel-pa-lundsberg/",
+    "crawl_date": "2025-10-23 19:40:42.788082"
+  }
+}