-
Notifications
You must be signed in to change notification settings - Fork 568
Open
Description
作者你好!我尝试了一些视觉大模型路线的通用图片转文字功能实现作为OCR功能的替代,发现它们的识别准确性不错。希望能增加一些可通过BaseURL、API等方式配置的通用图片转文字功能实现的接口。我做了一些初步的尝试,通过python flask + ollama + deepseek-ocr制作了一个简易的本地通用转文字(当然,可能需要一张相对较好的显卡配置来运行)。我通过监听本地的6666端口通过了一些简单的OCR功能性测试。这个是我的测试图
这是一个简化版本的参考实现(当然,OLLAMA_URL可能需要调整为用户自己的OLLAMA地址,如localhost):
虽然视觉大模型会损失绝大多数位置和字体的信息和文字块信息(它只会输出一段连续的文本),但是从准确性和语义理解方面都远超目前本地OCR和百度OCR的效果。希望将来能够增加一个支持类似于翻译源那样可以通过BaseURL、APIkey、Timeout、Prompt等属性来配置自己视觉大模型服务的方式。
Metadata
Metadata
Assignees
Labels
No labels