open-mmlab
diff --git a/‎configs/re/_base_/datasets/xfund_zh_huggingface.py‎
Lines changed: 0 additions & 14 deletions b/‎configs/re/_base_/datasets/xfund_zh_huggingface.py‎
Lines changed: 0 additions & 14 deletions
diff --git a/‎configs/ser/_base_/datasets/xfund_zh_huggingface.py‎
Lines changed: 0 additions & 14 deletions b/‎configs/ser/_base_/datasets/xfund_zh_huggingface.py‎
Lines changed: 0 additions & 14 deletions
diff --git a/‎mmocr/datasets/__init__.py‎
Lines changed: 2 additions & 1 deletion b/‎mmocr/datasets/__init__.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎mmocr/datasets/preparers/config_generators/re_config_generator.py‎
Lines changed: 1 addition & 3 deletions b/‎mmocr/datasets/preparers/config_generators/re_config_generator.py‎
Lines changed: 1 addition & 3 deletions
diff --git a/‎mmocr/datasets/preparers/config_generators/ser_config_generator.py‎
Lines changed: 1 addition & 3 deletions b/‎mmocr/datasets/preparers/config_generators/ser_config_generator.py‎
Lines changed: 1 addition & 3 deletions
diff --git a/‎mmocr/datasets/preparers/packers/re_packer.py‎
Lines changed: 29 additions & 13 deletions b/‎mmocr/datasets/preparers/packers/re_packer.py‎
Lines changed: 29 additions & 13 deletions
diff --git a/‎mmocr/datasets/preparers/packers/ser_packer.py‎
Lines changed: 29 additions & 13 deletions b/‎mmocr/datasets/preparers/packers/ser_packer.py‎
Lines changed: 29 additions & 13 deletions
diff --git a/‎mmocr/datasets/ser_dataset.py‎
Lines changed: 170 additions & 0 deletions b/‎mmocr/datasets/ser_dataset.py‎
Lines changed: 170 additions & 0 deletions
diff --git a/‎projects/LayoutLMv3/README.md‎ b/‎projects/LayoutLMv3/README.md‎
diff --git a/‎projects/LayoutLMv3/configs/layoutlmv3_xfund_zh.py‎
Lines changed: 12 additions & 0 deletions b/‎projects/LayoutLMv3/configs/layoutlmv3_xfund_zh.py‎
Lines changed: 12 additions & 0 deletions
@@ -5,10 +5,11 @@
 from .recog_lmdb_dataset import RecogLMDBDataset
 from .recog_text_dataset import RecogTextDataset
 from .samplers import *  # NOQA
+from .ser_dataset import SERDataset
 from .transforms import *  # NOQA
 from .wildreceipt_dataset import WildReceiptDataset
 
 __all__ = [
     'IcdarDataset', 'OCRDataset', 'RecogLMDBDataset', 'RecogTextDataset',
-    'WildReceiptDataset', 'ConcatDataset'
+    'WildReceiptDataset', 'ConcatDataset', 'SERDataset'
 ]
@@ -90,9 +90,7 @@ def _gen_dataset_config(self) -> str:
             cfg += '    type=\'REDataset\',\n'
             cfg += '    data_root=' + f'{self.dataset_name}_{self.task}_data_root,\n'  # noqa: E501
             cfg += f'    ann_file=\'{ann_dict["ann_file"]}\',\n'
-            if ann_dict['split'] == 'train':
-                cfg += '    filter_cfg=dict(filter_empty_gt=True, min_size=32),\n'  # noqa: E501
-            elif ann_dict['split'] in ['test', 'val']:
+            if ann_dict['split'] in ['test', 'val']:
                 cfg += '    test_mode=True,\n'
             cfg += '    pipeline=None)\n'
         return cfg
@@ -90,9 +90,7 @@ def _gen_dataset_config(self) -> str:
             cfg += '    type=\'SERDataset\',\n'
             cfg += '    data_root=' + f'{self.dataset_name}_{self.task}_data_root,\n'  # noqa: E501
             cfg += f'    ann_file=\'{ann_dict["ann_file"]}\',\n'
-            if ann_dict['split'] == 'train':
-                cfg += '    filter_cfg=dict(filter_empty_gt=True, min_size=32),\n'  # noqa: E501
-            elif ann_dict['split'] in ['test', 'val']:
+            if ann_dict['split'] in ['test', 'val']:
                 cfg += '    test_mode=True,\n'
             cfg += '    pipeline=None)\n'
         return cfg
@@ -22,16 +22,22 @@ class REPacker(BasePacker):
                     "task_name": "re",
                     "labels": ['answer', 'header', 'other', 'question'],
                     "id2label": {
-                        "0": "answer",
-                        "1": "header",
-                        "2": "other",
-                        "3": "question"
+                        "0": "O",
+                        "1": "B-ANSWER",
+                        "2": "I-ANSWER",
+                        "3": "B-HEADER",
+                        "4": "I-HEADER",
+                        "5": "B-QUESTION",
+                        "6": "I-QUESTION"
                     },
                     "label2id": {
-                        "answer": 0,
-                        "header": 1,
-                        "other": 2,
-                        "question": 3
+                        "O": 0,
+                        "B-ANSWER": 1,
+                        "I-ANSWER": 2,
+                        "B-HEADER": 3,
+                        "I-HEADER": 4,
+                        "B-QUESTION": 5,
+                        "I-QUESTION": 6
                     }
                 },
             "data_list":
@@ -141,21 +147,31 @@ def add_meta(self, sample: List) -> Dict:
             Dict: A dict contains the meta information and samples.
         """
 
+        def get_BIO_label_list(labels):
+            bio_label_list = []
+            for label in labels:
+                if label == 'other':
+                    bio_label_list.insert(0, 'O')
+                else:
+                    bio_label_list.append(f'B-{label.upper()}')
+                    bio_label_list.append(f'I-{label.upper()}')
+            return bio_label_list
+
         labels = []
         for s in sample:
             labels += s['instances']['labels']
-        label_list = list(set(labels))
-        label_list.sort()
+        org_label_list = list(set(labels))
+        bio_label_list = get_BIO_label_list(org_label_list)
 
         meta = {
             'metainfo': {
                 'dataset_type': 'REDataset',
                 'task_name': 're',
-                'labels': label_list,
+                'labels': org_label_list,
                 'id2label': {k: v
-                             for k, v in enumerate(label_list)},
+                             for k, v in enumerate(bio_label_list)},
                 'label2id': {v: k
-                             for k, v in enumerate(label_list)}
+                             for k, v in enumerate(bio_label_list)}
             },
             'data_list': sample
         }
 
@@ -22,16 +22,22 @@ class SERPacker(BasePacker):
                     "task_name": "ser",
                     "labels": ['answer', 'header', 'other', 'question'],
                     "id2label": {
-                        "0": "answer",
-                        "1": "header",
-                        "2": "other",
-                        "3": "question"
+                        "0": "O",
+                        "1": "B-ANSWER",
+                        "2": "I-ANSWER",
+                        "3": "B-HEADER",
+                        "4": "I-HEADER",
+                        "5": "B-QUESTION",
+                        "6": "I-QUESTION"
                     },
                     "label2id": {
-                        "answer": 0,
-                        "header": 1,
-                        "other": 2,
-                        "question": 3
+                        "O": 0,
+                        "B-ANSWER": 1,
+                        "I-ANSWER": 2,
+                        "B-HEADER": 3,
+                        "I-HEADER": 4,
+                        "B-QUESTION": 5,
+                        "I-QUESTION": 6
                     }
                 },
             "data_list":
@@ -129,21 +135,31 @@ def add_meta(self, sample: List) -> Dict:
             Dict: A dict contains the meta information and samples.
         """
 
+        def get_BIO_label_list(labels):
+            bio_label_list = []
+            for label in labels:
+                if label == 'other':
+                    bio_label_list.insert(0, 'O')
+                else:
+                    bio_label_list.append(f'B-{label.upper()}')
+                    bio_label_list.append(f'I-{label.upper()}')
+            return bio_label_list
+
         labels = []
         for s in sample:
             labels += s['instances']['labels']
-        label_list = list(set(labels))
-        label_list.sort()
+        org_label_list = list(set(labels))
+        bio_label_list = get_BIO_label_list(org_label_list)
 
         meta = {
             'metainfo': {
                 'dataset_type': 'SERDataset',
                 'task_name': 'ser',
-                'labels': label_list,
+                'labels': org_label_list,
                 'id2label': {k: v
-                             for k, v in enumerate(label_list)},
+                             for k, v in enumerate(bio_label_list)},
                 'label2id': {v: k
-                             for k, v in enumerate(label_list)}
+                             for k, v in enumerate(bio_label_list)}
             },
             'data_list': sample
         }
 
@@ -0,0 +1,170 @@
+# Copyright (c) OpenMMLab. All rights reserved.
+import os
+from typing import Callable, List, Optional, Sequence, Union
+
+from mmengine.dataset import BaseDataset
+from transformers import AutoTokenizer
+
+from mmocr.registry import DATASETS
+
+
+@DATASETS.register_module()
+class SERDataset(BaseDataset):
+
+    def __init__(self,
+                 ann_file: str = '',
+                 tokenizer: str = '',
+                 metainfo: Optional[dict] = None,
+                 data_root: Optional[str] = '',
+                 data_prefix: dict = dict(img_path=''),
+                 filter_cfg: Optional[dict] = None,
+                 indices: Optional[Union[int, Sequence[int]]] = None,
+                 serialize_data: bool = True,
+                 pipeline: List[Union[dict, Callable]] = [],
+                 test_mode: bool = False,
+                 lazy_init: bool = False,
+                 max_refetch: int = 1000) -> None:
+
+        if isinstance(tokenizer, str):
+            tokenizer = AutoTokenizer.from_pretrained(tokenizer, use_fast=True)
+        self.tokenizer = tokenizer
+
+        super().__init__(
+            ann_file=ann_file,
+            metainfo=metainfo,
+            data_root=data_root,
+            data_prefix=data_prefix,
+            filter_cfg=filter_cfg,
+            indices=indices,
+            serialize_data=serialize_data,
+            pipeline=pipeline,
+            test_mode=test_mode,
+            lazy_init=lazy_init,
+            max_refetch=max_refetch)
+
+    def load_data_list(self) -> List[dict]:
+        data_list = super().load_data_list()
+
+        # split text to several slices because of over-length
+        input_ids, bboxes, labels = [], [], []
+        segment_ids, position_ids = [], []
+        image_path = []
+        for i in range(len(data_list)):
+            start = 0
+            cur_iter = 0
+            while start < len(data_list[i]['input_ids']):
+                end = min(start + 510, len(data_list[i]['input_ids']))
+
+                input_ids.append([self.tokenizer.cls_token_id] +
+                                 data_list[i]['input_ids'][start:end] +
+                                 [self.tokenizer.sep_token_id])
+                bboxes.append([[0, 0, 0, 0]] +
+                              data_list[i]['bboxes'][start:end] +
+                              [[1000, 1000, 1000, 1000]])
+                labels.append([-100] + data_list[i]['labels'][start:end] +
+                              [-100])
+
+                cur_segment_ids = self.get_segment_ids(bboxes[-1])
+                cur_position_ids = self.get_position_ids(cur_segment_ids)
+                segment_ids.append(cur_segment_ids)
+                position_ids.append(cur_position_ids)
+                image_path.append(
+                    os.path.join(self.data_root, data_list[i]['img_path']))
+
+                start = end
+                cur_iter += 1
+
+        assert len(input_ids) == len(bboxes) == len(labels) == len(
+            segment_ids) == len(position_ids)
+        assert len(segment_ids) == len(image_path)
+
+        return data_list
+
+    def parse_data_info(self, raw_data_info: dict) -> Union[dict, List[dict]]:
+        instances = raw_data_info['instances']
+        img_path = raw_data_info['img_path']
+        width = raw_data_info['width']
+        height = raw_data_info['height']
+
+        texts = instances.get('texts', None)
+        bboxes = instances.get('bboxes', None)
+        labels = instances.get('labels', None)
+        assert texts or bboxes or labels
+        # norm box
+        bboxes_norm = [self.box_norm(box, width, height) for box in bboxes]
+        # get label2id
+        label2id = self.metainfo['label2id']
+
+        cur_doc_input_ids, cur_doc_bboxes, cur_doc_labels = [], [], []
+        for j in range(len(texts)):
+            cur_input_ids = self.tokenizer(
+                texts[j],
+                truncation=False,
+                add_special_tokens=False,
+                return_attention_mask=False)['input_ids']
+            if len(cur_input_ids) == 0:
+                continue
+
+            cur_label = labels[j].upper()
+            if cur_label == 'OTHER':
+                cur_labels = ['O'] * len(cur_input_ids)
+                for k in range(len(cur_labels)):
+                    cur_labels[k] = label2id[cur_labels[k]]
+            else:
+                cur_labels = [cur_label] * len(cur_input_ids)
+                cur_labels[0] = label2id['B-' + cur_labels[0]]
+                for k in range(1, len(cur_labels)):
+                    cur_labels[k] = label2id['I-' + cur_labels[k]]
+            assert len(cur_input_ids) == len(
+                [bboxes_norm[j]] * len(cur_input_ids)) == len(cur_labels)
+            cur_doc_input_ids += cur_input_ids
+            cur_doc_bboxes += [bboxes_norm[j]] * len(cur_input_ids)
+            cur_doc_labels += cur_labels
+        assert len(cur_doc_input_ids) == len(cur_doc_bboxes) == len(
+            cur_doc_labels)
+        assert len(cur_doc_input_ids) > 0
+
+        data_info = {}
+        data_info['img_path'] = img_path
+        data_info['input_ids'] = cur_doc_input_ids
+        data_info['bboxes'] = cur_doc_bboxes
+        data_info['labels'] = cur_doc_labels
+        return data_info
+
+    def box_norm(self, box, width, height):
+
+        def clip(min_num, num, max_num):
+            return min(max(num, min_num), max_num)
+
+        x0, y0, x1, y1 = box
+        x0 = clip(0, int((x0 / width) * 1000), 1000)
+        y0 = clip(0, int((y0 / height) * 1000), 1000)
+        x1 = clip(0, int((x1 / width) * 1000), 1000)
+        y1 = clip(0, int((y1 / height) * 1000), 1000)
+        assert x1 >= x0
+        assert y1 >= y0
+        return [x0, y0, x1, y1]
+
+    def get_segment_ids(self, bboxs):
+        segment_ids = []
+        for i in range(len(bboxs)):
+            if i == 0:
+                segment_ids.append(0)
+            else:
+                if bboxs[i - 1] == bboxs[i]:
+                    segment_ids.append(segment_ids[-1])
+                else:
+                    segment_ids.append(segment_ids[-1] + 1)
+        return segment_ids
+
+    def get_position_ids(self, segment_ids):
+        position_ids = []
+        for i in range(len(segment_ids)):
+            if i == 0:
+                position_ids.append(2)
+            else:
+                if segment_ids[i] == segment_ids[i - 1]:
+                    position_ids.append(position_ids[-1] + 1)
+                else:
+                    position_ids.append(2)
+        return position_ids
@@ -0,0 +1,12 @@
+_base_ = [
+    '/Users/wangnu/Documents/GitHub/mmocr/'
+    'configs/ser/_base_/datasets/xfund_zh.py'
+]
+
+train_dataset = _base_.xfund_zh_ser_train
+train_dataloader = dict(
+    batch_size=1,
+    num_workers=8,
+    persistent_workers=True,
+    sampler=dict(type='DefaultSampler', shuffle=True),
+    dataset=train_dataset)