MaxKB Version
V2.2
Please describe your needs or suggestions for improvements
在知识库中,可以参照现有的【生成问题】,设计【解析图片】,以实现对图片中内容解析和解析后的文字向量化。
最近有多个客户POC,遇到类似需求。
目前的做法是 编排 两个应用,其中一个应用专门做图片解析,另外一个主应用 在接受用户问题进行检索后,把检索到的分段中的oss图片链接提取出来,然后调用另外一个应用解析,再回答主应用进行回答。
这样下来体验慢,用户感受非常不好,浪费Token资源。
细想,产品可以参照现有的【生成问题】,设计【解析图片】,以实现对图片中内容解析和解析后的文字向量化:
- 现在每个分段中的图片对应的OSS链接都有,比如./oss/file/019946b6-f72d-7a73-ab91-e442cb0b06c8
- 参照【生成问题】,设计【解析图片】,实现调用视觉模型,把每张图片对应的内容解析出来,并存储到数据库,同时进行向量化,这样就能实现对图片内容检索。
- 至于解析后的内容怎么在前端显示 可以参照 “【问题】”的设计思路,加一个【图片解析】。
- 用户在分段里面,可以点击图片查看解析后的内容。
- 用户在【图片解析】里面,可以查看和编辑每张图片解析后的内容。
- 【图片解析】里面的文字和【问题】一样,也参与检索召回。
- 这样的设计能让存量用户可以顺利升级解析他们的存量有图片的文档。
Please describe the solution you suggest
No response
Additional Information
No response