Fixes non-ascii (eg. cyrillic) characters in rarbg (v2) scraper URLs

sirstudly · sirstudly · commit ae492516c31a · 2025-02-14T10:18:59.000Z
diff --git a/scraper/services/rarbgv2.py b/scraper/services/rarbgv2.py
@@ -43,9 +43,9 @@ def scrape(query, altquery):
                         ui_print("[rarbg] Processing torrent: " + title, ui_settings.debug)
                         if regex.match(r'(' + altquery.replace('.', r'\.').replace(r"\.*", ".*") + ')', title, regex.I):
                             link = torrent['href']
-                            request = urllib.request.Request('http://therarbg.com' + link, headers=headers)
+                            request = urllib.request.Request(escape_url('http://therarbg.com' + link), headers=headers)
                             response = session.open(request)
-                            content = response.read().decode('utf-8')
+                            content = response.read().decode('utf-8', errors='ignore')
                             soup = BeautifulSoup(content, 'html.parser')
                             download = soup.select('a[href^="magnet"]')[0]['href']
                             seeders = seederList[count].contents[0]
@@ -79,4 +79,12 @@ def scrape(query, altquery):
                 ui_print('[rarbg] error: unknown error. turn on debug printing for more information.')
             response = None
             ui_print('[rarbg] error: exception: ' + str(e), ui_settings.debug)
-    return scraped_releases
+    return scraped_releases
+
+
+# properly escapes any non-ascii characters in url
+def escape_url(url):
+    parts = urllib.parse.urlsplit(url)
+    path = urllib.parse.quote(parts.path)
+    query = urllib.parse.quote(parts.query, safe="=&?")  # Adjust safe characters as needed
+    return urllib.parse.urlunsplit((parts.scheme, parts.netloc, path, query, parts.fragment))