Releases: RapidAI/RapidDoc
Releases · RapidAI/RapidDoc
v0.6.1
29 Dec 14:40
Compare
Sorry, something went wrong.
No results found
Release Note
layout_config添加markdown_ignore_labels参数
优化PP-DocLayoutV2版面阅读顺序集成
更新RapidDoc的OmniDocBench评测(使用PP-DocLayoutV2)
v0.6.0
28 Dec 13:11
Compare
Sorry, something went wrong.
No results found
Release Note
修复表格单字坐标的bug #28
rapidocr版本支持3.4.3
保存图片jpg改为png
layout支持openvino推理(openvino版本大于2025.4.0,PP_DOCLAYOUTV2暂不支持)
openvino使用异步推理替代同步,解决openvino在多线程并发下报错
行内公式判断优化 #29
markdown转docx(基于pandoc)
markdown转html(基于markdown-it-py + mdit-py-plugins + pygments)
如果解析图片文件,版面识别默认使用原图,可用MINERU_LAYOUT_ORIGINAL_IMAGE环境变量进行关闭
支持 PP-DocLayoutV2 版面识别+阅读顺序
添加 OmniDocBench 评测
v0.5.1
02 Dec 18:21
Compare
Sorry, something went wrong.
No results found
Release Note
修复rapidocr3.4.2单字坐标调用方法和其他版本传参不一致问题
v0.5.0
02 Dec 18:13
Compare
Sorry, something went wrong.
No results found
Release Note
MINERU_MODELS_DIR 环境变量修改为 RAPID_MODELS_DIR
添加基于Gradio的在线demo
添加doclayout版面模型
table_config添加use_word_box参数,使用单字坐标匹配单元格,修复#10
table_config添加use_compare_table参数,启用表格结果比较(同时跑有线/无线并比对),默认关闭
修复开启复选框识别后出错 #17
修复与 celery 同时使用存在问题 #12
table_config添加是否识别表格内公式参数table_formula_enable,是否识别表格内图片参数table_image_enable,默认开启
添加q_cls表格分类的onnx模型(默认使用),table_config添加"cls.model_type"参数
v0.4.0
23 Nov 11:45
Compare
Sorry, something went wrong.
No results found
Release Note
移除magika
table_cls、unet对齐rapid_table推理代码
use_det_mode auto旋转文字识别
OCR-torch引擎推理速度提升300%
跟进mineru-2.6.4
添加环境变量MINERU_MODELS_DIR(模型文件存储目录)
v0.3.0
08 Nov 14:08
Compare
Sorry, something went wrong.
No results found
Release Note
跟进mineru-2.6.3
fastapi支持返回zip压缩文件,返回数据结构更新
公式支持torch推理,仅支持PP-FormulaNet_plus-M模型(GPU下使用)
修复文本型pdf嵌入图片型表格识别问题
过滤表格中“点状”小图像干扰
修复部分版面、表格场景识别问题
v0.2.0
24 Oct 02:02
Compare
Sorry, something went wrong.
No results found
Release Note
跨页表格合并
复选框识别,使用opencv(默认关闭、opencv识别存在误检)
提供 fastapi,支持cpu和gpu版本的docker镜像构建
文本型pdf,表格非OCR文本提取
文本型pdf,使用pypdfium2提取文本框bbox
文本型pdf,支持0/90/270度三个方向的表格解析
表格内图片提取
表格内公式提取
文本型pdf,使用pypdfium2提取原始图片
优化阅读顺序,支持多栏、竖排等复杂版面
v0.1.0
21 Sep 18:12
Compare
Sorry, something went wrong.
No results found
Release Note
A high-performance, open-source PDF data extraction tool.
一站式开源高性能数据提取工具,将复杂 PDF 文档转换为 Markdown 和 JSON 格式,使用onnx模型。