希望增加视觉大模型识别文本功能的API接口

作者你好！我尝试了一些视觉大模型路线的通用图片转文字功能实现作为OCR功能的替代，发现它们的识别准确性不错。希望能增加一些可通过BaseURL、API等方式配置的通用图片转文字功能实现的接口。我做了一些初步的尝试，通过python flask + ollama + deepseek-ocr制作了一个简易的本地通用转文字（当然，可能需要一张相对较好的显卡配置来运行）。我通过监听本地的6666端口通过了一些简单的OCR功能性测试。这个是我的测试图

<img width="758" height="249" alt="Image" src="https://github.com/user-attachments/assets/60c91c47-a791-416f-8c87-aff4989c1f66" />

<img width="379" height="497" alt="Image" src="https://github.com/user-attachments/assets/91e1f3b0-5780-4988-8621-56f1df14bc7d" />

这是一个简化版本的参考实现（当然，OLLAMA_URL可能需要调整为用户自己的OLLAMA地址，如localhost）：

[fake_main.py](https://github.com/user-attachments/files/23991747/fake_main.py)

虽然视觉大模型会损失绝大多数位置和字体的信息和文字块信息（它只会输出一段连续的文本），但是从准确性和语义理解方面都远超目前本地OCR和百度OCR的效果。希望将来能够增加一个支持类似于翻译源那样可以通过BaseURL、APIkey、Timeout、Prompt等属性来配置自己视觉大模型服务的方式。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

希望增加视觉大模型识别文本功能的API接口 #178

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

希望增加视觉大模型识别文本功能的API接口 #178

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions