add _log_model_parameters and polish LN

xiongjyu · xiongjyu · commit e0a498e7ae9a · 2025-11-30T18:02:34.000+08:00
diff --git a/lzero/model/unizero_model_multitask.py b/lzero/model/unizero_model_multitask.py
@@ -256,7 +256,154 @@ def __init__(
             print(f'{sum(p.numel() for p in self.world_model.transformer.parameters())} parameters in agent.world_model.transformer')
             print(f'{sum(p.numel() for p in self.tokenizer.encoder.parameters())} parameters in agent.tokenizer.encoder')
             print('==' * 20)
+        self._log_model_parameters(world_model_cfg.obs_type)
 
+    def _log_model_parameters(self, obs_type: str) -> None:
+        """
+        Overview:
+            Logs detailed parameter counts for all model components with a comprehensive breakdown.
+            Includes encoder, transformer, prediction heads, and other components.
+        Arguments:
+            - obs_type (:obj:`str`): The type of observation ('vector', 'image', or 'image_memory').
+        """
+        from ding.utils import get_rank
+
+        # Only print from rank 0 to avoid duplicate logs in DDP
+        if get_rank() != 0:
+            return
+
+        print('=' * 80)
+        print('MODEL PARAMETER STATISTICS'.center(80))
+        print('=' * 80)
+
+        # --- Total Model Parameters ---
+        total_params = sum(p.numel() for p in self.parameters())
+        total_trainable = sum(p.numel() for p in self.parameters() if p.requires_grad)
+        print(f'\n{"TOTAL MODEL":<40} {total_params:>15,} parameters')
+        print(f'{"  └─ Trainable":<40} {total_trainable:>15,} parameters')
+        print(f'{"  └─ Frozen":<40} {total_params - total_trainable:>15,} parameters')
+
+        # --- World Model Components ---
+        print(f'\n{"-" * 80}')
+        print(f'{"WORLD MODEL BREAKDOWN":<40}')
+        print(f'{"-" * 80}')
+
+        wm_params = sum(p.numel() for p in self.world_model.parameters())
+        wm_trainable = sum(p.numel() for p in self.world_model.parameters() if p.requires_grad)
+        print(f'{"World Model Total":<40} {wm_params:>15,} parameters')
+        print(f'{"  └─ Trainable":<40} {wm_trainable:>15,} parameters ({100*wm_trainable/wm_params:.1f}%)')
+
+        # --- Encoder ---
+        encoder_params = sum(p.numel() for p in self.tokenizer.encoder.parameters())
+        encoder_trainable = sum(p.numel() for p in self.tokenizer.encoder.parameters() if p.requires_grad)
+        print(f'\n{"1. ENCODER (Tokenizer)":<40} {encoder_params:>15,} parameters')
+        print(f'{"  └─ Trainable":<40} {encoder_trainable:>15,} parameters ({100*encoder_trainable/encoder_params:.1f}%)')
+
+        # --- Transformer Backbone ---
+        transformer_params = sum(p.numel() for p in self.world_model.transformer.parameters())
+        transformer_trainable = sum(p.numel() for p in self.world_model.transformer.parameters() if p.requires_grad)
+        print(f'\n{"2. TRANSFORMER BACKBONE":<40} {transformer_params:>15,} parameters')
+        print(f'{"  └─ Trainable":<40} {transformer_trainable:>15,} parameters ({100*transformer_trainable/transformer_params:.1f}%)')
+
+        # --- Prediction Heads (Detailed Breakdown) ---
+        print(f'\n{"3. PREDICTION HEADS":<40}')
+
+        # Access head_dict from world_model
+        if hasattr(self.world_model, 'head_dict'):
+            head_dict = self.world_model.head_dict
+
+            # Calculate total heads parameters
+            total_heads_params = sum(p.numel() for module in head_dict.values() for p in module.parameters())
+            total_heads_trainable = sum(p.numel() for module in head_dict.values() for p in module.parameters() if p.requires_grad)
+            print(f'{"  Total (All Heads)":<40} {total_heads_params:>15,} parameters')
+            print(f'{"  └─ Trainable":<40} {total_heads_trainable:>15,} parameters ({100*total_heads_trainable/total_heads_params:.1f}%)')
+
+            # Breakdown by head type
+            head_names_map = {
+                'head_policy_multi_task': 'Policy Head',
+                'head_value_multi_task': 'Value Head',
+                'head_rewards_multi_task': 'Reward Head',
+                'head_observations_multi_task': 'Next Latent (Obs) Head'
+            }
+
+            print(f'\n{"  Breakdown by Head Type:":<40}')
+            for head_key, head_name in head_names_map.items():
+                if head_key in head_dict:
+                    head_module = head_dict[head_key]
+                    head_params = sum(p.numel() for p in head_module.parameters())
+                    head_trainable = sum(p.numel() for p in head_module.parameters() if p.requires_grad)
+
+                    # Count number of task-specific heads (for ModuleList)
+                    if isinstance(head_module, nn.ModuleList):
+                        num_heads = len(head_module)
+                        params_per_head = head_params // num_heads if num_heads > 0 else 0
+                        print(f'{"    ├─ " + head_name:<38} {head_params:>15,} parameters')
+                        print(f'{"      └─ " + f"{num_heads} task-specific heads":<38} {params_per_head:>15,} params/head')
+                    else:
+                        print(f'{"    ├─ " + head_name:<38} {head_params:>15,} parameters')
+                        print(f'{"      └─ Shared across tasks":<38}')
+
+        # --- Positional & Task Embeddings ---
+        print(f'\n{"4. EMBEDDINGS":<40}')
+
+        if hasattr(self.world_model, 'pos_emb'):
+            pos_emb_params = sum(p.numel() for p in self.world_model.pos_emb.parameters())
+            pos_emb_trainable = sum(p.numel() for p in self.world_model.pos_emb.parameters() if p.requires_grad)
+            print(f'{"  ├─ Positional Embedding":<40} {pos_emb_params:>15,} parameters')
+            if pos_emb_trainable == 0:
+                print(f'{"    └─ (Frozen)":<40}')
+
+        if hasattr(self.world_model, 'task_emb') and self.world_model.task_emb is not None:
+            task_emb_params = sum(p.numel() for p in self.world_model.task_emb.parameters())
+            task_emb_trainable = sum(p.numel() for p in self.world_model.task_emb.parameters() if p.requires_grad)
+            print(f'{"  ├─ Task Embedding":<40} {task_emb_params:>15,} parameters')
+            print(f'{"    └─ Trainable":<40} {task_emb_trainable:>15,} parameters')
+
+        if hasattr(self.world_model, 'act_embedding_table'):
+            act_emb_params = sum(p.numel() for p in self.world_model.act_embedding_table.parameters())
+            act_emb_trainable = sum(p.numel() for p in self.world_model.act_embedding_table.parameters() if p.requires_grad)
+            print(f'{"  └─ Action Embedding":<40} {act_emb_params:>15,} parameters')
+            print(f'{"    └─ Trainable":<40} {act_emb_trainable:>15,} parameters')
+
+        # --- Decoder (if applicable) ---
+        if obs_type in ['vector', 'image_memory'] and self.tokenizer.decoder_network is not None:
+            print(f'\n{"5. DECODER":<40}')
+            decoder_params = sum(p.numel() for p in self.tokenizer.decoder_network.parameters())
+            decoder_trainable = sum(p.numel() for p in self.tokenizer.decoder_network.parameters() if p.requires_grad)
+            print(f'{"  Decoder Network":<40} {decoder_params:>15,} parameters')
+            print(f'{"  └─ Trainable":<40} {decoder_trainable:>15,} parameters')
+
+            if obs_type == 'image_memory' and hasattr(self.tokenizer, 'lpips'):
+                lpips_params = sum(p.numel() for p in self.tokenizer.lpips.parameters())
+                print(f'{"  LPIPS Loss Network":<40} {lpips_params:>15,} parameters')
+
+                # Calculate world model params excluding decoder and LPIPS
+                params_without_decoder = wm_params - decoder_params - lpips_params
+                print(f'\n{"  World Model (exc. Decoder & LPIPS)":<40} {params_without_decoder:>15,} parameters')
+
+        # --- Summary Table ---
+        print(f'\n{"=" * 80}')
+        print(f'{"SUMMARY":<40}')
+        print(f'{"=" * 80}')
+        print(f'{"Component":<30} {"Total Params":>15} {"Trainable":>15} {"% of Total":>15}')
+        print(f'{"-" * 80}')
+
+        components = [
+            ("Encoder", encoder_params, encoder_trainable),
+            ("Transformer", transformer_params, transformer_trainable),
+        ]
+
+        if hasattr(self.world_model, 'head_dict'):
+            components.append(("Prediction Heads", total_heads_params, total_heads_trainable))
+
+        for name, total, trainable in components:
+            pct = 100 * total / total_params if total_params > 0 else 0
+            print(f'{name:<30} {total:>15,} {trainable:>15,} {pct:>14.1f}%')
+
+        print(f'{"=" * 80}')
+        print(f'{"TOTAL":<30} {total_params:>15,} {total_trainable:>15,} {"100.0%":>15}')
+        print(f'{"=" * 80}\n')
+    
     #@profile
     def initial_inference(self, obs_batch: torch.Tensor, action_batch=None, current_obs_batch=None, task_id=None) -> MZNetworkOutput:
         """
diff --git a/zoo/jericho/configs/jericho_unizero_multitask_ddp_config.py b/zoo/jericho/configs/jericho_unizero_multitask_ddp_config.py
@@ -124,7 +124,7 @@ def generate_configs(env_id_list, env_configurations, collector_env_num, n_episo
                      total_batch_size, num_layers, model_name, replay_ratio, norm_type):
     configs = []
     # ===== only for debug =====
-    exp_name_prefix = f'data_lz/data_unizero_jericho_mt_20250513/jericho_moe8_{len(env_id_list)}games_tbs{total_batch_size}-nlayer{num_layers}-rr{replay_ratio}_not-share-head_encoder-final-ln_seed{seed}/'
+    exp_name_prefix = f'data_scalezero/jericho_mt_moe8_{len(env_id_list)}games_tbs{total_batch_size}-nlayer{num_layers}-rr{replay_ratio}_not-share-head_encoder-final-ln_seed{seed}/'
 
     action_space_size_list = [v[0] for _, v in env_configurations.items()]
     max_steps_list = [v[1] for _, v in env_configurations.items()]   
@@ -184,7 +184,7 @@ def create_env_manager():
     # Model name or path - configurable according to the predefined model paths or names
     model_name: str = 'BAAI/bge-base-en-v1.5'
     replay_ratio = 0.1
-    norm_type = 'BN'
+    norm_type = 'LN'
 
     collector_env_num = 4
     n_episode = 4