[Feature] Preliminary Support for ArkitScenes Dataset (#75)

mxh1999 · Tai-Wang · web-flow · commit 89aca6fb0e2d · 2024-09-12T09:01:53.000+08:00
* Implement portable eval script for server

* lint format

* implement visualizer for debugging

* Update README

* docstring

* Refine some docstrings.

* refine docstring

* refine docstring

* update README for single gpu training/testing

* fix: rotate yaw instead of pitch

* fix: scale for euler 3d box

* lint format

* Minor fixes: 1) some info may have inaccurate tokens_positive 2) create_positive_maps in batch &gt; 1 training

* Visual test complete. Need Full pipline test

* Pass Pipeline test

* Lint

* Arkitscenes data preliminary support

---------

Co-authored-by: Tai-Wang &lt;tab_wang@outlook.com&gt;
diff --git a/.gitignore b/.gitignore
@@ -125,6 +125,7 @@ demo/data/*
 data/scannet
 data/3rscan
 data/matterport3d
+data/arkitscenes
 data/*.pkl
 data/*.json
 exps/
diff --git a/data/README.md b/data/README.md
@@ -9,7 +9,9 @@ Detailed steps are shown as follows.
 
 3. Download Matterport3D data [HERE](https://github.com/niessner/Matterport). Link or move the folder to this level of directory.
 
-4. Download EmbodiedScan data and extract it here. Currently, please fill in the [form](https://docs.google.com/forms/d/e/1FAIpQLScUXEDTksGiqHZp31j7Zp7zlCNV7p_08uViwP_Nbzfn3g6hhw/viewform?usp=sf_link), and we will reply with the data download link.
+4. Download ARKitScenes data [HERE](https://github.com/apple/ARKitScenes). Link or move the folder to this level of directory.
+
+5. Download EmbodiedScan data and extract it here. Currently, please fill in the [form](https://docs.google.com/forms/d/e/1FAIpQLScUXEDTksGiqHZp31j7Zp7zlCNV7p_08uViwP_Nbzfn3g6hhw/viewform?usp=sf_link), and we will reply with the data download link.
 
 The directory structure should be as below.
 
@@ -25,17 +27,24 @@ data
 ├── matterport3d
 │   ├── <scene_id>
 │   ├── ...
+├── arkitscenes
+│   ├── Training
+│   |   ├── <scene_id>
+│   |   ├── ...
+│   ├── Validation
+│   |   ├── <scene_id>
+│   |   ├── ...
 ├── embodiedscan_occupancy
 ├── embodiedscan_infos_train.pkl
 ├── embodiedscan_infos_val.pkl
 ├── embodiedscan_infos_test.pkl
-├── embodiedscan_infos_train_vg.json
-├── embodiedscan_infos_val_vg.json
-├── embodiedscan_infos_test_vg.json
-├── embodiedscan_infos_train_mini_vg.json (mini set)
-├── embodiedscan_infos_val_mini_vg.json (mini set)
-├── embodiedscan_infos_train_vg_all.json (w/ complex prompts)
-├── embodiedscan_infos_val_vg_all.json (w/ complex prompts)
+├── embodiedscan_train_vg.json
+├── embodiedscan_val_vg.json
+├── embodiedscan_test_vg.json
+├── embodiedscan_train_mini_vg.json (mini set)
+├── embodiedscan_val_mini_vg.json (mini set)
+├── embodiedscan_train_vg_all.json (w/ complex prompts)
+├── embodiedscan_val_vg_all.json (w/ complex prompts)
 ```
 
 5. Enter the project root directory, extract images by running
@@ -68,13 +77,21 @@ data
 ├── matterport3d
 │   ├── <scene_id>
 │   ├── ...
+├── arkitscenes
+│   ├── Training
+│   |   ├── <scene_id>
+│   |   ├── ...
+│   ├── Validation
+│   |   ├── <scene_id>
+│   |   ├── ...
 ├── embodiedscan_occupancy
-├── embodiedscan_infos_train_full.pkl
-├── embodiedscan_infos_val_full.pkl
-├── embodiedscan_infos_train_full_vg.json
-├── embodiedscan_infos_val_full_vg.json
-├── embodiedscan_infos_train_mini_vg.json
-├── embodiedscan_infos_val_mini_vg.json
+├── embodiedscan_infos_train.pkl
+├── embodiedscan_infos_val.pkl
+├── embodiedscan_infos_test.pkl
+├── embodiedscan_train_vg.json
+├── embodiedscan_val_vg.json
+├── embodiedscan_train_mini_vg.json
+├── embodiedscan_val_mini_vg.json
 ```
 
 6. Also extract EmbodiedScan occupancy annotations here by running
diff --git a/embodiedscan/datasets/embodiedscan_dataset.py b/embodiedscan/datasets/embodiedscan_dataset.py
@@ -223,22 +223,33 @@ def parse_ann_info(self, info: dict) -> dict:
             mask_filename = os.path.join(self.data_prefix.get('img_path', ''),
                                          ann_dataset, building, 'occupancy',
                                          f'visible_occupancy_{region}.pkl')
+        elif ann_dataset == 'arkitscenes':
+            occ_filename = None
+            mask_filename = None
         else:
             raise NotImplementedError
 
-        gt_occ = np.load(occ_filename)
-        for i in range(gt_occ.shape[0]):
-            cls_id = self.occ_label_mapping[gt_occ[i][3]]
-            if cls_id < 0:
-                cls_id = 255
-            gt_occ[i][3] = cls_id
+        if occ_filename is None:
+            gt_occ = np.zeros((0, 4), dtype=np.int64)
+        else:
+            gt_occ = np.load(occ_filename)
+            for i in range(gt_occ.shape[0]):
+                cls_id = self.occ_label_mapping[gt_occ[i][3]]
+                if cls_id < 0:
+                    cls_id = 255
+                gt_occ[i][3] = cls_id
         ann_info['gt_occupancy'] = gt_occ
 
-        ann_info['visible_occupancy_masks'] = []
-        occ_masks = mmengine.load(mask_filename)
-        for i in range(len(info['images'])):
-            ann_info['visible_occupancy_masks'].append(
-                occ_masks[i]['visible_occupancy'])
+        if mask_filename is None:
+            ann_info['visible_occupancy_masks'] = [
+                [] for i in range(len(info['images']))
+            ]
+        else:
+            ann_info['visible_occupancy_masks'] = []
+            occ_masks = mmengine.load(mask_filename)
+            for i in range(len(info['images'])):
+                ann_info['visible_occupancy_masks'].append(
+                    occ_masks[i]['visible_occupancy'])
 
         ann_info['gt_bboxes_3d'] = self.box_type_3d(
             ann_info['gt_bboxes_3d'],
diff --git a/embodiedscan/explorer.py b/embodiedscan/explorer.py
@@ -12,7 +12,7 @@
 from embodiedscan.visualization.img_drawer import ImageDrawer
 from embodiedscan.visualization.utils import _9dof_to_box, _box_add_thickness
 
-DATASETS = ['scannet', '3rscan', 'matterport3d']
+DATASETS = ['scannet', '3rscan', 'matterport3d', 'arkitscenes']
 
 
 class EmbodiedScanExplorer:
@@ -65,7 +65,7 @@ def __init__(self,
         if self.verbose:
             print('Dataset root')
             for dataset in DATASETS:
-                print(dataset, ':', self.data_root[dataset])
+                print(dataset, ':', self.data_root.get(dataset, None))
 
         if self.verbose:
             print('Loading')
@@ -118,6 +118,10 @@ def __init__(self,
                     building, region = splits[1], splits[2]
                     dirpath = os.path.join(self.data_root['matterport3d'],
                                            building)
+                elif dataset == 'arkitscenes':
+                    split, region = splits[1], splits[2]
+                    dirpath = os.path.join(self.data_root['arkitscenes'],
+                                           split, region)
                 else:
                     region = splits[1]
                     dirpath = os.path.join(self.data_root[dataset], region)
@@ -168,6 +172,8 @@ def list_cameras(self, scene):
                     elif dataset == 'matterport3d':
                         cam_name = img_path.split(
                             '/')[-1][:-8] + img_path.split('/')[-1][-7:-4]
+                    elif dataset == 'arkitscenes':
+                        cam_name = img_path.split('/')[-1][:-4]
                     else:
                         cam_name = img_path.split('/')[-1][:-4]
                     res.append(cam_name)
@@ -252,6 +258,9 @@ def render_scene(self, scene_name, render_box=False):
         elif dataset == 'matterport3d':
             filepath = os.path.join(self.data_root['matterport3d'], building,
                                     'region_segmentations', f'{region}.ply')
+        elif dataset == 'arkitscenes':
+            filepath = os.path.join(self.data_root['arkitscenes'], building,
+                                    region, f'{region}_3dod_mesh.ply')
         else:
             raise NotImplementedError
 
@@ -311,6 +320,8 @@ def render_continuous_scene(self,
                         elif dataset == 'matterport3d':
                             cam_name = img_path.split(
                                 '/')[-1][:-8] + img_path.split('/')[-1][-7:-4]
+                        elif dataset == 'arkitscenes':
+                            cam_name = img_path.split('/')[-1][:-4]
                         else:
                             cam_name = img_path.split('/')[-1][:-4]
                         if cam_name == start_cam:
diff --git a/embodiedscan/tutorial.ipynb b/embodiedscan/tutorial.ipynb
@@ -60,14 +60,14 @@
     "# # If there are multiple composed dataset and multiple annotation files\n",
     "# # this requires 'path/to/dataset' contain the name of composed dataset.\n",
     "# explorer = EmbodiedScanExplorer(\n",
-    "# \tdataroot=['path/to/scannet', 'path/to/3rscan', 'path/to/matterport3d'],\n",
+    "# \tdataroot=['path/to/scannet', 'path/to/3rscan', 'path/to/matterport3d', 'path/to/arkitscenes'],\n",
     "# \tann_file=['path/to/train.pkl', 'path/to/val.pkl'],\n",
     "# \tverbose=True,\t# print log or not\n",
     "# )\n",
     "\n",
     "# or\n",
     "explorer = EmbodiedScanExplorer(\n",
-    "\tdata_root={'scannet' : 'demo/data/scannet', '3rscan' : 'demo/data/3rscan', 'matterport3d': 'demo/data/matterport3d'},\n",
+    "\tdata_root={'scannet' : 'demo/data/scannet', '3rscan' : 'demo/data/3rscan', 'matterport3d': 'demo/data/matterport3d', 'arkitscenes': 'demo/data/arkitscenes'},\n",
     "\tann_file=['demo/data/train.pkl', 'demo/data/val.pkl'],\n",
     "\tverbose=True,\t# print log or not\n",
     ")"
diff --git a/embodiedscan/visualization/continuous_drawer.py b/embodiedscan/visualization/continuous_drawer.py
@@ -69,6 +69,9 @@ def begin(self):
         elif dataset == 'matterport3d':
             pcdpath = os.path.join(self.dir, building, 'region_segmentations',
                                    f'{region}.ply')
+        elif dataset == 'arkitscenes':
+            pcdpath = os.path.join(self.dir, building, region,
+                                   f'{region}_3dod_mesh.ply')
         else:
             self.demo = True
             self.drawed_boxes = []
@@ -121,7 +124,9 @@ def draw_next(self, vis):
         if 'depth_cam2img' in img:
             depth_intrinsic = img['depth_cam2img']
         else:
-            depth_intrinsic = self.scene['depth_cam2img']
+            depth_intrinsic = self.scene.get('depth_cam2img', None)
+        if depth_intrinsic is None:
+            depth_intrinsic = intrinsic
         depth_shift = 1000.0
         if self.dataset == 'matterport3d':
             depth_shift = 4000.0