use with -2 hidden state

zRzRzRzRzRzRzR · zRzRzRzRzRzRzR · commit b86bfd4cbe9b · 2025-01-23T22:10:02.000+08:00
diff --git a/src/diffusers/pipelines/cogview4/pipeline_cogview4.py b/src/diffusers/pipelines/cogview4/pipeline_cogview4.py
@@ -174,7 +174,7 @@ def __init__(
         )
         self.vae_scale_factor = 2 ** (len(self.vae.config.block_out_channels) - 1) if getattr(self, "vae", None) else 8
         self.image_factor = 16
-
+        self.text_projector = torch.nn.Linear(4096, 4096)
         self.image_processor = VaeImageProcessor(vae_scale_factor=self.vae_scale_factor)
 
     def _get_glm_embeds(
@@ -217,10 +217,12 @@ def _get_glm_embeds(
                 device=text_input_ids.device,
             )
             text_input_ids = torch.cat([pad_ids, text_input_ids], dim=1)
-
-        prompt_embeds = self.text_encoder.model.embed_tokens(text_input_ids.to(self.text_encoder.model.device))[0]
+        prompt_embeds = self.text_encoder(text_input_ids.to(self.text_encoder.model.device), output_hidden_states=True).hidden_states[-2]
+        self.text_projector.to(dtype=dtype, device=device)
+        prompt_embeds = self.text_projector(prompt_embeds)
+        breakpoint()
         prompt_embeds = prompt_embeds.to(dtype=dtype, device=device)
-        seq_len, _ = prompt_embeds.shape
+        _, seq_len, _= prompt_embeds.shape
         prompt_embeds = prompt_embeds.repeat(1, num_images_per_prompt, 1)
         prompt_embeds = prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, -1)
         return prompt_embeds