Skip to content

Latest commit

 

History

History
845 lines (507 loc) · 17.1 KB

File metadata and controls

845 lines (507 loc) · 17.1 KB

wxid_2zyfe21ojzzw22 - 2025-05-08 11:22:08

我想请问一下dify在做知识库查询的时候,预处理文档有没有比较好的一个方法奥


wxid_2zyfe21ojzzw22 - 2025-05-08 11:22:22

image


hjlarry - 2025-05-08 11:22:40

其实就是常见的dify对一些文档的解析不友好?


wxid_7da5db36yiad22 - 2025-05-08 11:22:40

哈哈哈


wxid_2zyfe21ojzzw22 - 2025-05-08 11:22:48

比如像这些pdf里面有表格,对啊


wxid_7da5db36yiad22 - 2025-05-08 11:22:52

早上我自己搭了一个做知识库的


wxid_7da5db36yiad22 - 2025-05-08 11:23:03

找到了一个开源项目


wxid_7da5db36yiad22 - 2025-05-08 11:23:10

不对 主要是数据集的


wxid_2zyfe21ojzzw22 - 2025-05-08 11:24:32

奥奥,就是得先预处理一下嘛,然后在入库嘛


wxid_2zyfe21ojzzw22 - 2025-05-08 11:24:56

image


wxid_2zyfe21ojzzw22 - 2025-05-08 11:25:06

刚才我还找了一个这个 不知道解析的好不好


hjlarry - 2025-05-08 11:25:11

是的 入库最好是markdown格式的 要想省事 就是直接外接ragflow 我觉得是最省事的了


wxid_7da5db36yiad22 - 2025-05-08 11:25:33

在弄ragflow比较好


wxid_671txdjl47aq21 - 2025-05-08 11:29:18

现在在作第一步,word-》归纳分级总结。遇到的问题就是1、长文本怎么输出2、总结的点怎么能准确一些


wxid_2zyfe21ojzzw22 - 2025-05-08 11:30:00

他不会自带这个ocr识别这些吧


wxid_671txdjl47aq21 - 2025-05-08 11:31:40

不固定,估计4W字内


hjlarry - 2025-05-08 11:34:09

你这个和模型本身的能力强相关,我会先去尝试在线的gemini系列的模型 它是支持最多上下文的一种模型 先看看最好的模型能不能把它处理的达到你要的总结效果


wxid_2zyfe21ojzzw22 - 2025-05-08 11:34:22

image


wxid_2zyfe21ojzzw22 - 2025-05-08 11:34:48

这个牛的,确实[坏笑]。我感觉还是外接一个ragflow比较省事。


Ron - 2025-05-08 11:34:50

@air 你的word,有示例可以发个看看么


hjlarry - 2025-05-08 11:34:55

对的


wxid_7da5db36yiad22 - 2025-05-08 11:35:48

image


wxid_7da5db36yiad22 - 2025-05-08 11:35:52

电脑随时都有


wxid_7da5db36yiad22 - 2025-05-08 11:35:54

哈哈哈


wxid_2zyfe21ojzzw22 - 2025-05-08 11:37:53

[旺柴]可以的


wxid_2zyfe21ojzzw22 - 2025-05-08 11:38:03

看介绍确实香


wxid_2zyfe21ojzzw22 - 2025-05-08 11:38:19

他这个服务器上只有cpu应该也可以运行吧


hjlarry - 2025-05-08 11:38:50

CPU可以 ragflow是比较费资源的


wxid_7da5db36yiad22 - 2025-05-08 11:38:51

也要跑大模型


wxid_7da5db36yiad22 - 2025-05-08 11:39:05

估计就只能跑小的


wxid_7da5db36yiad22 - 2025-05-08 11:39:24

你们ragflow用什么embedding模型啊


hjlarry - 2025-05-08 11:42:11

embedding个人感觉都差不太多 [捂脸]


wxid_7da5db36yiad22 - 2025-05-08 11:43:17

这样子吗


Ron - 2025-05-08 11:57:35

我看看


wxid_2zyfe21ojzzw22 - 2025-05-08 11:59:04

我感觉你这个第一步应该是结构化,先转成markdown好些,然后针对每一段进行摘要分析


Ron - 2025-05-08 12:02:22

image


Ron - 2025-05-08 12:02:53

把这些,通过正则匹配,加上一个【父级】这样类似的标记位


Ron - 2025-05-08 12:03:07

image


wwzhouhui - 2025-05-08 12:03:10

ragflow比较费资源,而且处理速算会比较慢


Ron - 2025-05-08 12:03:25

再把这样开头的,添加一个【子段落】标记位


Ron - 2025-05-08 12:05:10

image


Ron - 2025-05-08 12:05:45

image


Ron - 2025-05-08 12:06:02

image


Ron - 2025-05-08 12:06:16

类似这样,处理这个word,然后再父子方式放入知识库


wxid_671txdjl47aq21 - 2025-05-08 12:10:27

放入知识库是为了分段吗,正常模型有这功能吗


wxid_671txdjl47aq21 - 2025-05-08 12:12:02

放入知识库后,后面如何生成整篇excle


hjlarry - 2025-05-08 12:13:26

大语言模型的核心瓶颈是不支持长上下文,放入知识库分段是为了解决具体问题时只找到部分相关知识,这样模型就处理的更好


wwzhouhui - 2025-05-08 12:35:16

这个简单的doc转md文件参考代码


wwzhouhui - 2025-05-08 12:39:33

复杂的可以用mineru


wxid_9pgkq8ic90d521 - 2025-05-08 13:01:32

如果我想让ai读docx,然后处理数据,输出保留原来docx的格式,有什么方法吗,docx里有表格有颜色,有页眉页脚


hjlarry - 2025-05-08 13:02:14

你的意思是ai输出的内容 要写入到原有的docx相应的地方上去?


wxid_9pgkq8ic90d521 - 2025-05-08 13:02:58

或者重新组织docx,和原有的格式保持一致,你说的修改对应位置也可以


Ron - 2025-05-08 13:03:46

感觉,这不是 ai 做的,是代码做的


Ron - 2025-05-08 13:04:01

https://dingyu.me/blog/lessons-translator-app-beats-google-translate-deepl


Ron - 2025-05-08 13:04:24

感觉像这个人做的事


hjlarry - 2025-05-08 13:05:14

这个需要你自己写插件了 是一个工程上处理的事情


hjlarry - 2025-05-08 13:05:47

ai只知道生成内容 但是docx不属于markdown那种通用格式 需要你自己做内容的替换


wxid_9pgkq8ic90d521 - 2025-05-08 13:06:20

那有没有方法docx转markdown保留了全部格式标记的脚本,然后还可以转换回来


hjlarry - 2025-05-08 13:09:01

不会的 markdown支持的格式标记是很少的 那势必转换就会丢失格式


wwzhouhui - 2025-05-08 13:43:43

PDF Craft 可以将 PDF 文件转化为各种其他格式。该项目将专注于扫描书籍的 PDF 文件的处理

https://github.com/oomol-lab/pdf-craft/blob/main/README_zh-CN.md


wwzhouhui - 2025-05-08 13:43:55

这个可以保持原来的格式


Ron - 2025-05-08 14:10:05

[抱拳][抱拳][抱拳]


wxid_9pgkq8ic90d521 - 2025-05-08 14:31:38

如果我想做一个月的新闻总结,我的思路是爬下来这些新闻,然后放到知识库中,假设每天有10条新闻,我导入后尝试总结,感觉知识库召回的文章只召回了部分给ai去总结,想问下这种有什么思路解决


hjlarry - 2025-05-08 14:34:08

知识库召回是根据你的关键字去匹配找对应的文章 不会去找全量文章的 可以考虑先对每篇新闻总结一下 存数据库 然后月末了把库里的都拿出来给ai去总结


wxid_9pgkq8ic90d521 - 2025-05-08 14:34:51

有道理


wxid_9pgkq8ic90d521 - 2025-05-08 14:40:48

如果我是按月来做一个总结,那我是不是应该按月建知识库,如果是按月建知识库,那我岂不是每月都要调整工作流中挂的知识库的名称,有什么自动化可以处理的方法吗


hjlarry - 2025-05-08 14:46:47

如果你用知识检索这个节点的话 它是不支持动态检索不同的知识库的 如果每个月的总结都在不同知识库 看起来是得经常调整


Ron - 2025-05-08 14:49:16

感觉放一个知识库,贴标签


Ron - 2025-05-08 14:49:19

是不是好点


wxid_7da5db36yiad22 - 2025-05-08 14:51:09

好很多了


wxid_9pgkq8ic90d521 - 2025-05-08 14:52:21

这个思路挺好[ThumbsUp]


Ron - 2025-05-08 14:56:37

哈哈哈,vip 群开启专家模式,讨论一下,都有个方案


wxid_9pgkq8ic90d521 - 2025-05-08 15:35:57

我看微信小程序的微搭低代码平台有说可以对接dify,这部分有相关demo或者案例可以学习下吗?最好是能传图片的[Salute]


Ron - 2025-05-08 15:50:26

这个我没有,感觉都还是自己开发调接口为主


wxid_pgye6v6ofbws22 - 2025-05-08 17:03:47

有哪些私有工作流呀


wxid_twh09qctjv7822 - 2025-05-08 18:06:11

对话 agent 插件,它的实现逻辑在代码里边都有吗? 有个有点复杂的需求,跟这个插件的功能还挺类似


wxid_pgye6v6ofbws22 - 2025-05-08 18:15:48

image


wxid_pgye6v6ofbws22 - 2025-05-08 18:15:51

我注意到 dify-plugin-daemon 生成的文件类型是 blob_chunk,但 Dify 主项目目前只支持 blob 类型的处理。请问是否可以将插件返回的类型由 blob_chunk 修改为 blob


wxid_pgye6v6ofbws22 - 2025-05-08 18:16:41

二开后的所有markdown转word插件都变成了blob_chunk导致用不了,不知道什么原因


hjlarry - 2025-05-08 18:17:54

这个 blob chunk 是最近才加的,但是改动较大,需要 dify 本身,plugin 容器和 sdk 都更新,要么就都不更新也可以


hjlarry - 2025-05-08 18:18:45

它解决的问题是大一点的多模态文件传输给大模型,导致卡死不返回


wxid_pgye6v6ofbws22 - 2025-05-08 18:25:40

这样,那解决办法就是都更新


hjlarry - 2025-05-08 18:26:57

对,要么都更要么都不更,比单独调一个好点


hjlarry - 2025-05-08 20:08:01

@Frigo 我记错了,最近加的是 LLMResultChunk 啊,这个 blob chunk 是一直都有的,你具体遇到什么错误了吗?


ani424094144 - 2025-05-08 20:20:33

目前的工作流模板都在应用模版里面是吗


ani424094144 - 2025-05-08 20:20:33

image


ani424094144 - 2025-05-08 20:20:59

还有哪里有散落的 dsl 文件哇?


wxid_pgye6v6ofbws22 - 2025-05-08 20:24:45

官网的是blob


wxid_pgye6v6ofbws22 - 2025-05-08 20:24:56

先更新代码看看


wwzhouhui - 2025-05-08 20:27:36

https://github.com/svcvit/Awesome-Dify-Workflow 这个里面有非官方 最全的 dsl


ani424094144 - 2025-05-08 20:27:58

好的我来看看


wwzhouhui - 2025-05-08 20:28:10

https://github.com/wwwzhouhui/dify-for-dsl 这个是我开源的项目 目前也是算比较全面的。


wxid_pgye6v6ofbws22 - 2025-05-08 20:30:51

明天代码全部合并更新到最新版本再看看


wxid_9pgkq8ic90d521 - 2025-05-09 10:16:46

通过http的方式访问dify的工作流在哪里可以看到调用请求及运行结果吗?界面上可以看到还是服务器后台哪个日志可以看到?


hjlarry - 2025-05-09 10:18:09

日志在api容器里


wxid_9pgkq8ic90d521 - 2025-05-09 10:20:48

能举例看看如何查看吗?


hjlarry - 2025-05-09 10:21:50

你是全部docker compose启动的吗


Ron - 2025-05-09 10:21:58

image


Ron - 2025-05-09 10:22:11

我猜他说的会不会是这里的日志


hjlarry - 2025-05-09 10:22:17

[捂脸]


wxid_7da5db36yiad22 - 2025-05-09 10:23:33

[旺柴]搞一个开源项目 查看docker里面容器日志监控呗 搞一个页面


Ron - 2025-05-09 10:27:23

http调用也会产生的


wxid_9pgkq8ic90d521 - 2025-05-09 10:27:31

好的


Ron - 2025-05-09 10:27:44

只有在编辑工作流的模式下,测试的时候不会产生


Ron - 2025-05-09 10:28:04

image


wxid_7da5db36yiad22 - 2025-05-09 10:28:15

[旺柴]安装我的思路 是不是日志看起来更加容易呢


wxid_7da5db36yiad22 - 2025-05-09 10:29:21

[旺柴]哈哈哈 我容器比较多


wxid_7da5db36yiad22 - 2025-05-09 10:31:26

2分钟拉了一个 超快


wxid_7da5db36yiad22 - 2025-05-09 10:31:39

image


wwzhouhui - 2025-05-09 10:42:57

我可以推荐一个给你


wxid_7da5db36yiad22 - 2025-05-09 10:43:12

还有其他好用的?


wxid_7da5db36yiad22 - 2025-05-09 10:43:20

感觉这个也可以了


wwzhouhui - 2025-05-09 10:43:53

应该比你这个强


wxid_7da5db36yiad22 - 2025-05-09 10:44:12

大神们 分享几个牛逼的dify工作流呗


wwzhouhui - 2025-05-09 10:46:41

https://1panel.cn/docs/installation/online_installation/ 平台支持在线和离线安装


wwzhouhui - 2025-05-09 10:46:54

这个工具应该比你工具好用


wwzhouhui - 2025-05-09 10:47:25

不光监控容器,还有linux服务器都是可以的,最近还有mcp服务


wxid_7da5db36yiad22 - 2025-05-09 10:47:49

[笑脸]好的 收藏 收藏


wwzhouhui - 2025-05-09 10:48:39

后面也会有付费会员专享技术文章


wwzhouhui - 2025-05-09 10:50:16

如果企业级一般用ki8s,如果规模小单个服务器推荐用1panel做服务器和容器管理


wxid_7da5db36yiad22 - 2025-05-09 10:52:44

K8S目前没环境玩哦 哈哈哈


wxid_9pgkq8ic90d521 - 2025-05-09 11:44:43

当前dify的api访问是http的,可以加证书变成https吗,具体在哪里配置?


Ron - 2025-05-09 11:48:17

image


Ron - 2025-05-09 11:48:35

image


Ron - 2025-05-09 11:48:39

看这俩地方


wxid_pgye6v6ofbws22 - 2025-05-09 14:08:29

golang的代码报错缺失SDK:2025-05-09 11:48:51.296] [ERROR] [35c65ed4-c9e6-4baf-9347-3017a9af6a6c] @local_runtime/environment_python. go:363 failed to get the version of the plugin sdk: failed to find the version of the plugin sdk


wxid_pgye6v6ofbws22 - 2025-05-09 14:09:20

这个报错会影响到正常使用吗?目前没发现问题


hjlarry - 2025-05-09 14:12:40

没遇到过 我来看看


hjlarry - 2025-05-09 14:16:30

这个不影响 它只检测一下plugin sdk的版本


hjlarry - 2025-05-09 14:16:30

image


hjlarry - 2025-05-09 14:16:42

升级以后昨天的问题好了?


wxid_pgye6v6ofbws22 - 2025-05-09 14:16:59

后端升级完是可以了


hjlarry - 2025-05-09 14:17:55

[捂脸]


wxid_pgye6v6ofbws22 - 2025-05-10 11:19:43

image


wxid_pgye6v6ofbws22 - 2025-05-10 11:19:52

http插件限制了大小吗?


wxid_pgye6v6ofbws22 - 2025-05-10 11:20:03

调用生图接口直接干报错了


hjlarry - 2025-05-10 11:44:57

对的,环境变量里好像叫 http max body 吧


godspeed6633 - 2025-05-11 11:45:03

求助 这个工具怎么添加? 按DIFY操作手册 报错


wwzhouhui - 2025-05-11 11:45:37

换成 局域网IP试一试


wwzhouhui - 2025-05-11 11:45:46

另外这插件需要 科学上网


wwzhouhui - 2025-05-11 11:46:57

https://mp.weixin.qq.com/s/49psBbYxd6oVdu6Q--hIbg


wwzhouhui - 2025-05-11 11:47:14

我之前在0.15.3 版本测试过的


hjlarry - 2025-05-11 11:50:04

0.15 版本,我把它的配置放在项目里了,所以直接启动就可以,但是 1.0 以后得自己启动了,需要自己设置了


godspeed6633 - 2025-05-11 11:52:50

非常感谢


wxid_pgye6v6ofbws22 - 2025-05-11 14:35:36

chatflow能像coze一样分段输出多个消息吗


hjlarry - 2025-05-11 14:48:04

没怎么用 coze,什么样就算是分段输出


wxid_pgye6v6ofbws22 - 2025-05-11 14:52:57

image


wxid_pgye6v6ofbws22 - 2025-05-11 14:53:28

就像这样 回复不止一个


hjlarry - 2025-05-11 15:04:27

这应该实现不了,它总是会把一个 chatflow 执行完


wxid_pgye6v6ofbws22 - 2025-05-11 17:28:35

@RON 微信群聊二维码只能7天,你是怎么维护的?真手动替换吗 还是用了活码


Ron - 2025-05-11 18:05:16

我是纯手工,本来也要维护的


wwzhouhui - 2025-05-11 22:35:06

https://github.com/xxnuo/serverless-qrcode-hub 这个项目可以实现微信群聊二维码自动生成


wxid_pgye6v6ofbws22 - 2025-05-11 23:57:33

🐮


wwzhouhui - 2025-05-12 09:32:49

整理目前ron开源和我的dify工作流,放到百度网盘里面,需要的同学自取


Ron - 2025-05-12 09:47:19

[ThumbsUp][ThumbsUp]


ani424094144 - 2025-05-12 09:57:03

[ThumbsUp][ThumbsUp]


wxid_twh09qctjv7822 - 2025-05-12 09:58:05

[强][强]


godspeed6633 - 2025-05-12 10:03:22

非常好 正在体验


wxid_pgye6v6ofbws22 - 2025-05-12 10:07:37

[强][强]


godspeed6633 - 2025-05-12 10:07:55

ppt生成助手,依赖的容器没标识[流泪]


godspeed6633 - 2025-05-12 10:07:56

image


wxid_pgye6v6ofbws22 - 2025-05-12 10:13:04

这是本地服务


dezhi-2008 - 2025-05-12 17:40:13

请问dify1.2以上的版本可以多agent协作吗


hjlarry - 2025-05-12 17:40:58

可以设置多个agent节点 但是工作流都是向前 不能往回走 和multi agent有区别


dezhi-2008 - 2025-05-12 17:41:18

哦哦好的,谢谢


wxid_9pgkq8ic90d521 - 2025-05-12 17:42:49

image


wxid_9pgkq8ic90d521 - 2025-05-12 17:43:29

duckduckgo这里报错,请问是什么原因呢?


hjlarry - 2025-05-12 17:44:09

应该是这个插件的bug