-
项目很棒,但作为OCR初学者,大量的算法和模块让我在学习的时候感觉有点没理清楚。再日常的一些工作中,大量的内容实际上是pdf, word 这样的文档使用ocr识别。 我理解这个可以说和真实照片的识别是有关联,但似乎更加的简单一些。在paddle的算法储备这里,我看到了大量的算法,想问下, 项目是否分了比如pdf文档类和真实照片类的这样的区分,便于可以初学者可以快速定位到具体想学习的方向。或者这两者本身是相关联的,算法是可以统一使用的呢。谢谢您指教 |
Beta Was this translation helpful? Give feedback.
Answered by
tink2123
Jan 18, 2024
Replies: 1 comment
-
目前来看大部分情况下算法是通用的,文档或真实图片模型只取决于训练数据的不同。因此不好在模型层面做区分。如果对文档场景感兴趣,欢迎关注PaddleX中的文档OCR模型:https://aistudio.baidu.com/application/detail/10368 |
Beta Was this translation helpful? Give feedback.
0 replies
Answer selected by
SWHL
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
目前来看大部分情况下算法是通用的,文档或真实图片模型只取决于训练数据的不同。因此不好在模型层面做区分。如果对文档场景感兴趣,欢迎关注PaddleX中的文档OCR模型:https://aistudio.baidu.com/application/detail/10368