大佬,我用相同的pixel_values输入分别在官网和您的代码中测试,发现vision_hidden_states结果相差很大。这个您这边有遇到过吗?方便看下吗?
vision_hidden_states = self.qwenvl.visual.patch_embed.proj(pixel_values.to(dtype=self.qwenvl.visual.patch_embed.proj.weight.dtype)).view(1, -1, self.qwenvl.visual.patch_embed.embed_dim)