关于思维链数据集生成问题请教？

作者提到gpt4o生成思维链数据时，只需要输入文本，然后由gpt4o生成三个步骤。我想问的问题是。以论文中的一个数据为例。
- Person 1: A man and a woman sitting on a swing. 
Person 1的描述信息的取得不是通过图像输入gpt4o得到的，那么Person 1的描述信息应该是作为prompt一部分作为输入的。然后由gpt4o的输出生成思维链过程。

那么Person 1的描述信息作者是如何获得的呢？