软文安利来体验,真的很失望 #15578
Replies: 11 comments
-
+1 而且现在PaddleOCR3.0.0 还强制依赖的PaddleX, 懒得开新贴了, PaddleX这玩意有多肥依赖有多少不用我说你们心里自己也知道 我是Python 3.12 + Windows + numpy 2.2.5, 本来paddlepaddle好不容易都吃上了numpy2了, 这回paddle x又要求numpy1.26.4 又要求pandas 1.5.3 真是吐了, 前者降级后者包太老没有windows还要自己编译, 编译半天又编译不过, 对了macOS那边都在玩python3.13了, 为了一个新版PaddleOCR 3.0.0 大家都得降级3.11? 呕了, 而且我测试下来 V5的det模型误检测率非常高, 比V4高太多了, 又是浪费时间适配的一天, 什么时候出个doc的det啊!!! |
Beta Was this translation helpful? Give feedback.
-
@eritpchy 你好,感谢指出 PaddleOCR 存在的问题!对于依赖的问题,我想做如下解释:
这次升级新增了比较多功能,比如chatocr和表格识别v2,这些功能会需要一些额外的依赖。目前,我们通过对PaddleX的可选依赖进行分组隔离,已经尽可能把PaddleOCR的依赖数量降到最少,也就是说,几乎不存在因为底层使用PaddleX才需要引入的额外依赖,要实现这些功能,不使用PaddleX直接开发,基本上也需要这些依赖。实际上这次升级对训练和推理依赖进行了分离,去掉此前训练才需要用到的依赖、再加上新的依赖后,虽然依赖数量变多(如上文所说,这可能是不可避免的),但依赖的总体积基本保持不变。从安装总体积大小的角度来看,如果之前的PaddleOCR是“一个很小的工具类”,那么现在应该也是,而且功能更多了~此外,当前的机制允许我们对依赖数量和体积进行进一步优化:如果用户呼声较高,后续我们也可能会考虑为PaddleOCR引入可选依赖,对于只希望使用OCR这一基础功能的用户,只安装OCR功能需要用到的依赖,而不用安装PP-StructureV3、ChatOCR等产线需要的依赖。 |
Beta Was this translation helpful? Give feedback.
-
您好,请问您的文本检测的场景是什么呢?可以提供下具体的case吗?我们来看下是否可以通过参数调整 |
Beta Was this translation helpful? Give feedback.
-
@EvanLee0418 您好,感谢关注! |
Beta Was this translation helpful? Give feedback.
-
paddleocr 2.10.0 依赖 42个 ppocr2-test-3.11.requirements.txt ppocr3-test-3.11.requirements.txt 当然这些还好, 不好的是PaddleX 强制要求numpy1.26.4 又要求pandas 1.5.3, 而paddlepaddle 很早就兼容numpy2了(paddlex反向拖后腿) |
Beta Was this translation helpful? Give feedback.
-
依赖数量的问题,就如之前的解释,这次新增了大量功能(从2个模型串联系统增加到8个),也需要更多依赖,但这些多是小依赖,对总体积的影响不大,我们也在讨论是否引入可选依赖功能~ 对于numpy和pandas版本的问题,目前由于我们使用的部分API的后向兼容性限制,锁定了版本,抱歉造成了不便!PaddleX/PaddleOCR都属于paddlepaddle的下游应用,虽然其中由paddlepaddle提供最核心的能力,但除了模型推理以外的逻辑也有很多,这些逻辑有时也比较复杂,可能需要调用第三方库,可能存在一些对库版本的要求。我相信pin或者cap版本不会是长期方案,我们接下来也会排查代码逻辑,放松依赖版本限制。当前,如果不希望在安装依赖时编译源码的话(部分库只提供了source distribution),可以参考我在这个PR里的回复: |
Beta Was this translation helpful? Give feedback.
-
关于这一点做回复哈:
|
Beta Was this translation helpful? Give feedback.
-
@EvanLee0418 您好,这里提到PP框架难安装,请问是哪个环节有问题呢? |
Beta Was this translation helpful? Give feedback.
-
相关的案例我已经开了新的issue, 详见: #15374 |
Beta Was this translation helpful? Give feedback.
-
I also have to chime in on the pandas version limitation. This is actually a big issue. This project is listed as compatible with Python 3.12 which it is clearly not! |
Beta Was this translation helpful? Give feedback.
-
大家好,我们近期有了一些修复进展:
Hello everyone, we've made some recent progress on a few fixes:
|
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
🔎 Search before asking
🐛 Bug (问题描述)
首先,环境很难装,尤其是PP框架,浪费很多时间。
其次,整体性能数据属实吗?还是为了展示指标而对测评集使劲过拟合?
其中整个表格处理模块,一个模块用了7个模型调参逻辑串联!!!实测下来和其他开源的单模型效果差不多,而且过拟合严重,真实场景上效果极差。
一点经验:7个模型处理这么一个小任务,不遵守第一性原则,其系统性误差和风险指数增长,必然导致过拟合,这是必然规律!!
最后真的很失望,浪费了很多时间,实验了一个失败的方案,希望重视用户体验,不要自嗨!!
🏃♂️ Environment (运行环境)
linux
🌰 Minimal Reproducible Example (最小可复现问题的Demo)
xx
Beta Was this translation helpful? Give feedback.
All reactions