generated_ids = model.generate(**inputs, max_new_tokens=32,)为什么推理的时候报错,但是添加use_cache=False就可以不报错呢,,下面的报错
outputs_cd = self(
**model_inputs_cd,
return_dict=True,
output_attentions=output_attentions_wo_img,
output_hidden_states=output_hidden_states_wo_img,
)