作者提到gpt4o生成思维链数据时,只需要输入文本,然后由gpt4o生成三个步骤。我想问的问题是。以论文中的一个数据为例。 - Person 1: A man and a woman sitting on a swing. Person 1的描述信息的取得不是通过图像输入gpt4o得到的,那么Person 1的描述信息应该是作为prompt一部分作为输入的。然后由gpt4o的输出生成思维链过程。 那么Person 1的描述信息作者是如何获得的呢?