Skip to content

希望增加视觉大模型识别文本功能的API接口 #178

@Tsqurt

Description

@Tsqurt

作者你好!我尝试了一些视觉大模型路线的通用图片转文字功能实现作为OCR功能的替代,发现它们的识别准确性不错。希望能增加一些可通过BaseURL、API等方式配置的通用图片转文字功能实现的接口。我做了一些初步的尝试,通过python flask + ollama + deepseek-ocr制作了一个简易的本地通用转文字(当然,可能需要一张相对较好的显卡配置来运行)。我通过监听本地的6666端口通过了一些简单的OCR功能性测试。这个是我的测试图

Image Image

这是一个简化版本的参考实现(当然,OLLAMA_URL可能需要调整为用户自己的OLLAMA地址,如localhost):

fake_main.py

虽然视觉大模型会损失绝大多数位置和字体的信息和文字块信息(它只会输出一段连续的文本),但是从准确性和语义理解方面都远超目前本地OCR和百度OCR的效果。希望将来能够增加一个支持类似于翻译源那样可以通过BaseURL、APIkey、Timeout、Prompt等属性来配置自己视觉大模型服务的方式。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions