🤖 基于通义千问大模型的智能 OCR 识别工具
- 🧠 自动获取支持视觉的通义千问模型
- 🔄 支持多个 API Token 轮换使用
- 🎯 精准的文字识别能力
- 📐 完美支持数学公式(自动转换为 LaTeX 格式)
- 💻 代码块智能识别(自动格式化为 Markdown 代码块)
- 📝 可自定义 Prompt
- 📋 一键复制识别结果
- 🔄 支持重新识别
- 🌐 支持多语言翻译功能(中文、英文、日语、韩语、法语、德语、西班牙语、俄语)
- 📜 支持自定义模板配置(目标检测等高级功能),充分利用通义千问的强大视觉能力
- 下载插件安装包
- 选中安装包,按下 Ctrl + C 复制
- 再按下 Alt + 空格键呼出 uTools
- 将安装包粘贴到搜索框中,选择"安装插件/应用"
- 打开 uTools 插件市场
- 搜索 "QwenOCR"
- 点击"安装"按钮
- 安装完成后,即可在 uTools 中使用
- ⌨️ 通过 uTools 关键字呼出插件:
qwenocr识别截图文字识别文字识别图片文字识别
- 🔑 打开插件,点击"插件设置"配置通义千问 API Token
- 选择以下任意方式输入图片:
- 🖼️ 拖拽图片到识别区域
- 📋 复制图片后直接粘贴
- 📤 点击识别区域上传图片
- 📸 点击"截图识别"进行屏幕截图
- 📂 直接拖拽图片文件到 uTools 搜索框
- 识别完成后,可以:
- 📋 点击"一键复制"复制识别结果
- 🔄 点击"重新识别"重新处理当前图片
- 🌐 点击"翻译文本"将识别结果翻译为其他语言
- 🗑️ 点击"一键清除"清空结果
-
配置插件:
- 点击插件界面的"插件设置"
- 填入用于 OCR 识别和翻译的 API base URL 和 API Token(请选择兼容 OpenAI 格式的 API)
- 填入支持视觉识别的模型(默认为 qwen2.5-vl-32b-instruct)
- 填入翻译模型(默认为 gpt-4o-mini)
- 可选:自定义识别 Prompt
-
高级功能:
- 自定义模板:可以创建和保存自定义 Prompt 模板
- 多语言翻译:支持将识别结果翻译为多种语言,需配置 OpenAI 格式的 API Key
- 🌐 使用时需要确保网络连接正常
- 📊 建议使用清晰的图片以获得最佳识别效果
- 🔄 临时文件会在一小时后自动清理
⚠️ 公式识别效果依赖于图片质量和通义千问模型的能力
欢迎提交 Issue 和 Pull Request!
本项目仅供学习和研究使用,任何商业用途或滥用行为均与作者无关。请遵守相关法律法规和平台的使用条款。本项目不会收集任何用户数据,所有数据直接与 API 交互。
MIT License





