support parsing long scheme names

codereverser · codereverser · commit 32878e06c239 · 2021-01-22T18:38:38.000+05:30
diff --git a/casparser/process/cas_detailed.py b/casparser/process/cas_detailed.py
@@ -6,7 +6,7 @@
 
 from ..enums import TransactionType, CASFileType
 from ..exceptions import HeaderParseError, CASParseError
-from .regex import DETAILED_DATE_RE, FOLIO_RE, SCHEME_RE
+from .regex import DETAILED_DATE_RE, FOLIO_RE, SCHEME_RE, REGISTRAR_RE
 from .regex import CLOSE_UNITS_RE, NAV_RE, OPEN_UNITS_RE, VALUATION_RE
 from .regex import DESCRIPTION_TAIL_RE, DIVIDEND_RE, TRANSACTION_RE
 
@@ -80,10 +80,13 @@ def process_detailed_text(text):
     current_folio = None
     current_amc = None
     curr_scheme_data = {}
-    balance = Decimal(0.0)
     lines = text.split("\u2029")
-    for line in lines:
-        if m := re.search(DESCRIPTION_TAIL_RE, line, re.I | re.DOTALL):
+    for idx, line in enumerate(lines):
+        # Parse schemes with long names (single line) effectively pushing
+        # "Registrar" column to the previous line
+        if re.search(REGISTRAR_RE, line):
+            line = "\t\t".join([lines[idx + 1], line])
+        elif m := re.search(DESCRIPTION_TAIL_RE, line, re.I | re.DOTALL):
             description_tail = m.group(1).rstrip()
             line = line.replace(description_tail, "")
         else:
diff --git a/casparser/process/regex.py b/casparser/process/regex.py
@@ -15,6 +15,7 @@
 )
 
 SCHEME_RE = r"([\s\w]+)-\s*\d*\s*(.+?)\s*(?:\(Advisor\s*:\s*(.+?)\))*\s+Registrar\s*:\s*(.*)\s*$"
+REGISTRAR_RE = r"^\s*Registrar\s*:\s*(.*)\s*$"
 OPEN_UNITS_RE = r"Opening\s+Unit\s+Balance.+?([\d,.]+)"
 CLOSE_UNITS_RE = r"Closing\s+Unit\s+Balance.+?([\d,.]+)"
 VALUATION_RE = r"Valuation\s+on\s+(\d{2}-[A-Za-z]{3}-\d{4})\s*:\s*INR\s*([\d,.]+)"

Original file line number	Diff line number	Diff line change
`@@ -15,6 +15,7 @@`
`15`	`15`	`)`
`16`	`16`
`17`	`17`	`SCHEME_RE = r"([\s\w]+)-\s\d\s(.+?)\s(?:\(Advisor\s:\s(.+?)\))\s+Registrar\s:\s(.)\s*$"`
	`18`	`+REGISTRAR_RE = r"^\sRegistrar\s:\s(.)\s*$"`
`18`	`19`	`OPEN_UNITS_RE = r"Opening\s+Unit\s+Balance.+?([\d,.]+)"`
`19`	`20`	`CLOSE_UNITS_RE = r"Closing\s+Unit\s+Balance.+?([\d,.]+)"`
`20`	`21`	`VALUATION_RE = r"Valuation\s+on\s+(\d{2}-[A-Za-z]{3}-\d{4})\s:\sINR\s*([\d,.]+)"`