1Panel-dev
diff --git a/‎apps/application/template/embed.js‎
Lines changed: 2 additions & 2 deletions b/‎apps/application/template/embed.js‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎apps/common/handle/impl/doc_split_handle.py‎
Lines changed: 32 additions & 6 deletions b/‎apps/common/handle/impl/doc_split_handle.py‎
Lines changed: 32 additions & 6 deletions
diff --git a/‎apps/common/handle/impl/pdf_split_handle.py‎
Lines changed: 7 additions & 4 deletions b/‎apps/common/handle/impl/pdf_split_handle.py‎
Lines changed: 7 additions & 4 deletions
diff --git a/‎apps/common/handle/impl/text_split_handle.py‎
Lines changed: 6 additions & 4 deletions b/‎apps/common/handle/impl/text_split_handle.py‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎apps/common/util/split_model.py‎
Lines changed: 30 additions & 12 deletions b/‎apps/common/util/split_model.py‎
Lines changed: 30 additions & 12 deletions
diff --git a/‎apps/dataset/serializers/document_serializers.py‎
Lines changed: 6 additions & 4 deletions b/‎apps/dataset/serializers/document_serializers.py‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎apps/dataset/serializers/problem_serializers.py‎
Lines changed: 3 additions & 2 deletions b/‎apps/dataset/serializers/problem_serializers.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎ui/src/assets/csv-icon.svg‎
Lines changed: 7 additions & 0 deletions b/‎ui/src/assets/csv-icon.svg‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎ui/src/assets/doc-icon.svg‎
Lines changed: 5 additions & 0 deletions b/‎ui/src/assets/doc-icon.svg‎
Lines changed: 5 additions & 0 deletions
@@ -19,7 +19,7 @@ const guideHtml=`
 </div>
 `
 const chatButtonHtml=
-`<div class="maxkb-chat-button" ><svg width="48" height="56" viewBox="0 0 48 56" fill="none" xmlns="http://www.w3.org/2000/svg">
+`<div class="maxkb-chat-button" ><svg style="vertical-align: middle;overflow: hidden;" width="48" height="56" viewBox="0 0 48 56" fill="none" xmlns="http://www.w3.org/2000/svg">
 <g filter="url(#filter0_d_349_49711)">
 <path d="M8 24C8 12.9543 16.9543 4 28 4H48V44H28C16.9543 44 8 35.0457 8 24Z" fill="url(#paint0_linear_349_49711)"/>
 </g>
@@ -164,7 +164,7 @@ function initMaxkbStyle(root){
   }
   #maxkb .maxkb-mask .maxkb-content {
       width: 45px;
-      height: 50px;
+      height: 48px;
       box-shadow: 1px 1px 1px 2000px rgba(0,0,0,.6);
       border-radius: 50% 0 0 50%;
       position: absolute;
 
@@ -11,14 +11,18 @@
 from typing import List
 
 from docx import Document
+from docx.table import Table
+from docx.text.paragraph import Paragraph
 
 from common.handle.base_split_handle import BaseSplitHandle
 from common.util.split_model import SplitModel
 
-default_pattern_list = [re.compile('(?<=^)# .*|(?<=\\n)# .*'), re.compile('(?<!#)## (?!#).*'),
-                        re.compile("(?<!#)### (?!#).*"),
-                        re.compile("(?<!#)#### (?!#).*"), re.compile("(?<!#)##### (?!#).*"),
-                        re.compile("(?<!#)###### (?!#).*"), re.compile("(?<!\n)\n\n+")]
+default_pattern_list = [re.compile('(?<=^)# .*|(?<=\\n)# .*'),
+                        re.compile('(?<=\\n)(?<!#)## (?!#).*|(?<=^)(?<!#)## (?!#).*'),
+                        re.compile("(?<=\\n)(?<!#)### (?!#).*|(?<=^)(?<!#)### (?!#).*"),
+                        re.compile("(?<=\\n)(?<!#)#### (?!#).*|(?<=^)(?<!#)#### (?!#).*"),
+                        re.compile("(?<=\\n)(?<!#)##### (?!#).*|(?<=^)(?<!#)##### (?!#).*"),
+                        re.compile("(?<=\\n)(?<!#)###### (?!#).*|(?<=^)(?<!#)###### (?!#).*")]
 
 
 class DocSplitHandle(BaseSplitHandle):
@@ -32,9 +36,31 @@ def paragraph_to_md(paragraph):
             return paragraph.text
         return paragraph.text
 
+    @staticmethod
+    def table_to_md(table):
+        rows = table.rows
+        # 创建 Markdown 格式的表格
+        md_table = '| ' + ' | '.join([cell.text.replace("\n", '</br>') for cell in rows[0].cells]) + ' |\n'
+        md_table += '| ' + ' | '.join(['---' for i in range(len(rows[0].cells))]) + ' |\n'
+        for row in rows[1:]:
+            md_table += '| ' + ' | '.join([cell.text.replace("\n", '</br>') for cell in row.cells]) + ' |\n'
+        return md_table
+
     def to_md(self, doc):
-        ps = doc.paragraphs
-        return "\n".join([self.paragraph_to_md(para) for para in ps])
+        elements = []
+        for element in doc.element.body:
+            if element.tag.endswith('tbl'):
+                # 处理表格
+                table = Table(element, doc)
+                elements.append(table)
+            elif element.tag.endswith('p'):
+                # 处理段落
+                paragraph = Paragraph(element, doc)
+                elements.append(paragraph)
+
+        return "\n".join(
+            [self.paragraph_to_md(element) if isinstance(element, Paragraph) else self.table_to_md(element) for element
+             in elements])
 
     def handle(self, file, pattern_list: List, with_filter: bool, limit: int, get_buffer):
         try:
 
@@ -14,10 +14,13 @@
 from common.handle.base_split_handle import BaseSplitHandle
 from common.util.split_model import SplitModel
 
-default_pattern_list = [re.compile('(?<=^)# .*|(?<=\\n)# .*'), re.compile('(?<!#)## (?!#).*'),
-                        re.compile("(?<!#)### (?!#).*"),
-                        re.compile("(?<!#)#### (?!#).*"), re.compile("(?<!#)##### (?!#).*"),
-                        re.compile("(?<!#)###### (?!#).*"), re.compile("(?<!\n)\n\n+")]
+default_pattern_list = [re.compile('(?<=^)# .*|(?<=\\n)# .*'),
+                        re.compile('(?<=\\n)(?<!#)## (?!#).*|(?<=^)(?<!#)## (?!#).*'),
+                        re.compile("(?<=\\n)(?<!#)### (?!#).*|(?<=^)(?<!#)### (?!#).*"),
+                        re.compile("(?<=\\n)(?<!#)#### (?!#).*|(?<=^)(?<!#)#### (?!#).*"),
+                        re.compile("(?<=\\n)(?<!#)##### (?!#).*|(?<=^)(?<!#)##### (?!#).*"),
+                        re.compile("(?<=\\n)(?<!#)###### (?!#).*|(?<=^)(?<!#)###### (?!#).*"),
+                        re.compile("(?<!\n)\n\n+")]
 
 
 def number_to_text(pdf_document, page_number):
 
@@ -14,10 +14,12 @@
 from common.handle.base_split_handle import BaseSplitHandle
 from common.util.split_model import SplitModel
 
-default_pattern_list = [re.compile('(?<=^)# .*|(?<=\\n)# .*'), re.compile('(?<!#)## (?!#).*'),
-                        re.compile("(?<!#)### (?!#).*"),
-                        re.compile("(?<!#)#### (?!#).*"), re.compile("(?<!#)##### (?!#).*"),
-                        re.compile("(?<!#)###### (?!#).*"), re.compile("(?<!\n)\n\n+")]
+default_pattern_list = [re.compile('(?<=^)# .*|(?<=\\n)# .*'),
+                        re.compile('(?<=\\n)(?<!#)## (?!#).*|(?<=^)(?<!#)## (?!#).*'),
+                        re.compile("(?<=\\n)(?<!#)### (?!#).*|(?<=^)(?<!#)### (?!#).*"),
+                        re.compile("(?<=\\n)(?<!#)#### (?!#).*|(?<=^)(?<!#)#### (?!#).*"),
+                        re.compile("(?<=\\n)(?<!#)##### (?!#).*|(?<=^)(?<!#)##### (?!#).*"),
+                        re.compile("(?<=\\n)(?<!#)###### (?!#).*|(?<=^)(?<!#)###### (?!#).*")]
 
 
 class TextSplitHandle(BaseSplitHandle):
 
@@ -295,7 +295,7 @@ def parse_to_tree(self, text: str, index=0):
         """
         if len(self.content_level_pattern) == index:
             return
-        level_content_list = parse_title_level(text, self.content_level_pattern, index)
+        level_content_list = parse_title_level(text, self.content_level_pattern, 0)
         cursor = 0
         for i in range(len(level_content_list)):
             block, cursor = get_level_block(text, level_content_list, i, cursor)
@@ -313,10 +313,15 @@ def parse_to_tree(self, text: str, index=0):
             if end_index == 0:
                 return level_content_list
             other_content = text[0:end_index]
-            if len(other_content.strip()) > 0:
-                level_content_list = [*level_content_list, *list(
-                    map(lambda row: to_tree_obj(row, 'block'),
-                        post_handler_paragraph(other_content, with_filter=self.with_filter, limit=self.limit)))]
+            children = self.parse_to_tree(text=other_content,
+                                          index=index)
+            if len(children) > 0:
+                level_content_list = [*level_content_list, *children]
+            else:
+                if len(other_content.strip()) > 0:
+                    level_content_list = [*level_content_list, *list(
+                        map(lambda row: to_tree_obj(row, 'block'),
+                            post_handler_paragraph(other_content, with_filter=self.with_filter, limit=self.limit)))]
         else:
             if len(text.strip()) > 0:
                 level_content_list = [*level_content_list, *list(
@@ -330,15 +335,16 @@ def parse(self, text: str):
         :param text: 文本数据
         :return: 解析后数据 {content:段落数据,keywords:[‘段落关键词’],parent_chain:['段落父级链路']}
         """
-        result_tree = self.parse_to_tree(text.replace('\r', '\n'), 0)
+        text = text.replace('\r', '\n')
+        result_tree = self.parse_to_tree(text, 0)
         result = result_tree_to_paragraph(result_tree, [], [])
-        # 过滤段落内容不为空字符串的数据
-        result = [item for item in result if 'content' in item and len(item.get('content').strip()) > 0]
-        return [self.post_reset_paragraph(item) for item in result]
+        return [item for item in [self.post_reset_paragraph(row) for row in result] if
+                'content' in item and len(item.get('content').strip()) > 0]
 
     def post_reset_paragraph(self, paragraph: Dict):
         result = self.filter_title_special_characters(paragraph)
         result = self.sub_title(result)
+        result = self.content_is_null(result)
         return result
 
     @staticmethod
@@ -349,6 +355,15 @@ def sub_title(paragraph: Dict):
                 return {**paragraph, 'title': title[0:255], 'content': title[255:len(title)] + paragraph.get('content')}
         return paragraph
 
+    @staticmethod
+    def content_is_null(paragraph: Dict):
+        if 'title' in paragraph:
+            title = paragraph.get('title')
+            content = paragraph.get('content')
+            if (content is None or len(content.strip()) == 0) and (title is not None and len(title) > 0):
+                return {'title': '', 'content': title}
+        return paragraph
+
     @staticmethod
     def filter_title_special_characters(paragraph: Dict):
         title = paragraph.get('title') if 'title' in paragraph else ''
@@ -361,9 +376,12 @@ def filter_title_special_characters(paragraph: Dict):
 title_special_characters_list = ['#', '\n', '\r', '\\s']
 
 default_split_pattern = {
-    'md': [re.compile('(?<=^)# .*|(?<=\\n)# .*'), re.compile('(?<!#)## (?!#).*'), re.compile("(?<!#)### (?!#).*"),
-           re.compile("(?<!#)#### (?!#).*"), re.compile("(?<!#)##### (?!#).*"),
-           re.compile("(?<!#)###### (?!#).*"), re.compile("(?<!\n)\n\n+")],
+    'md': [re.compile('(?<=^)# .*|(?<=\\n)# .*'),
+           re.compile('(?<=\\n)(?<!#)## (?!#).*|(?<=^)(?<!#)## (?!#).*'),
+           re.compile("(?<=\\n)(?<!#)### (?!#).*|(?<=^)(?<!#)### (?!#).*"),
+           re.compile("(?<=\\n)(?<!#)#### (?!#).*|(?<=^)(?<!#)#### (?!#).*"),
+           re.compile("(?<=\\n)(?<!#)##### (?!#).*|(?<=^)(?<!#)##### (?!#).*"),
+           re.compile("(?<=\\n)(?<!#)###### (?!#).*|(?<=^)(?<!#)###### (?!#).*")],
     'default': [re.compile("(?<!\n)\n\n+")]
 }
 
 
@@ -506,10 +506,12 @@ def parse(self):
     class SplitPattern(ApiMixin, serializers.Serializer):
         @staticmethod
         def list():
-            return [{'key': "#", 'value': '(?<=^)# .*|(?<=\\n)# .*'}, {'key': '##', 'value': '(?<!#)## (?!#).*'},
-                    {'key': '###', 'value': "(?<!#)### (?!#).*"}, {'key': '####', 'value': "(?<!#)#### (?!#).*"},
-                    {'key': '#####', 'value': "(?<!#)##### (?!#).*"},
-                    {'key': '######', 'value': "(?<!#)###### (?!#).*"},
+            return [{'key': "#", 'value': '(?<=^)# .*|(?<=\\n)# .*'},
+                    {'key': '##', 'value': '(?<=\\n)(?<!#)## (?!#).*|(?<=^)(?<!#)## (?!#).*'},
+                    {'key': '###', 'value': "(?<=\\n)(?<!#)### (?!#).*|(?<=^)(?<!#)### (?!#).*"},
+                    {'key': '####', 'value': "(?<=\\n)(?<!#)#### (?!#).*|(?<=^)(?<!#)#### (?!#).*"},
+                    {'key': '#####', 'value': "(?<=\\n)(?<!#)##### (?!#).*|(?<=^)(?<!#)##### (?!#).*"},
+                    {'key': '######', 'value': "(?<=\\n)(?<!#)###### (?!#).*|(?<=^)(?<!#)###### (?!#).*"},
                     {'key': '-', 'value': '(?<! )- .*'},
                     {'key': '空格', 'value': '(?<!\\s)\\s(?!\\s)'},
                     {'key': '分号', 'value': '(?<!；)；(?!；)'}, {'key': '逗号', 'value': '(?<!，)，(?!，)'},
 
@@ -60,13 +60,14 @@ def batch(self, with_valid=True):
             if with_valid:
                 self.is_valid(raise_exception=True)
             problem_list = self.data.get('problem_list')
+            problem_list = list(set(problem_list))
             dataset_id = self.data.get('dataset_id')
             exists_problem_content_list = [problem.content for problem in
                                            QuerySet(Problem).filter(dataset_id=dataset_id,
                                                                     content__in=problem_list)]
             problem_instance_list = [Problem(id=uuid.uuid1(), dataset_id=dataset_id, content=problem_content) for
                                      problem_content in
-                                     self.data.get('problem_list') if
+                                     problem_list if
                                      (not exists_problem_content_list.__contains__(problem_content) if
                                       len(exists_problem_content_list) > 0 else True)]
 
@@ -122,7 +123,7 @@ def list_paragraph(self, with_valid=True):
                 self.is_valid(raise_exception=True)
             problem_paragraph_mapping = QuerySet(ProblemParagraphMapping).filter(dataset_id=self.data.get("dataset_id"),
                                                                                  problem_id=self.data.get("problem_id"))
-            if problem_paragraph_mapping is None or len(problem_paragraph_mapping)==0:
+            if problem_paragraph_mapping is None or len(problem_paragraph_mapping) == 0:
                 return []
             return native_search(
                 QuerySet(Paragraph).filter(id__in=[row.paragraph_id for row in problem_paragraph_mapping]),