Releases: PaddlePaddle/PaddleX
v3.1.4
v3.1.4版本,修复和优化部分问题:
- 修复了分布式训练问题,添加分布式训练文档。
- 修复了表格识别v2产线在不使用版面区域检测模型时,组batch预测报错的问题。
- 优化了一些文档。
Full Changelog: v3.1.3...v3.1.4
v3.1.3
v3.1.3版本,修复和优化部分问题:
-
Bug修复:
- 修复近期引入的 PP-OCRv4 及以下版本的英文模型推理可视化显示问题。
- 修复 eslav_PP-OCRv5_mobile_rec 模型的字典路径错误问题。
-
文档优化:
- 安装文档补充了 PaddleX 3.1.2 版本的官方镜像。
Full Changelog: v3.1.2...v3.1.3
v3.1.2
v3.1.2版本,修复和优化部分问题:
-
Bug修复:
- 将默认CPU推理线程数调整为10,与PaddleOCR对齐。
- 修复了推理时,当传入不合法后缀名图像文件路径时造成的递归调用报错问题。
-
功能优化:
- PP-DocTranslation 产线支持用户传入词表对照表,保证专业名词翻译更准确。
- 3.1版本新增的多语种文本识别模型的默认下载源改为Hugging Face。
-
文档优化:
- 修复PP-DocTranslation 服务化部署的参数名称错误。
- 补充对高稳定性服务化部署手动构造HTTP请求方式的说明。
v3.1.1
v3.1.1版本,修复使用本地字体文件在特殊场景下可能触发的问题
v3.1.0
v3.1.0版本,新增PP-OCRv5种多语种文字识别模型和文档翻译产线,优化PP-StructureV3中的PP-Chart2Table模型:
- 重要模型:
- 新增PP-OCRv5多语种文本识别模型,支持法语、西班牙语、葡萄牙语、俄语、韩语等37种语言的文字识别模型的训推流程。平均精度涨幅超30%。
- 升级PP-StructureV3中的PP-Chart2Table模型,图表转表能力进一步升级,在内部自建测评集合上指标(RMS-F1)提升9.36个百分点(71.24% -> 80.60%)
- 重要产线:
- 新增基于PP-StructureV3和ERNIE 4.5 Turbo的文档翻译产线PP-DocTranslation,支持翻译Markdown文档、各种复杂版式的PDF文档和文档图像,结果保存为Markdown格式文档。
v3.0.3
v3.0.3版本,新增服务化部署多语言调用示例,修复部分问题:
-
功能新增:
- PP-OCRv5、PP-StructureV3、PP-ChatOCRv4等10条pipeline新增C++、Java、Go、C#、Node.js、PHP等6种语言的服务调用示例。
-
Bug修复:
- 修复下载文件时向stdout写入内容扰乱CLI正常输出的问题。
- 在服务化部署中,对非线程安全的PDF读取API加锁,避免竞态条件。
- 修复了在部分情况下推理设置
run_mode不生效的问题。 - 修复PP-StructureV3产线页面无文档元素时,
page_continuation_flags默认值为None,引发的服务化部署失败问题。
v3.0.2
v3.0.2版本,新增部分功能,修复和优化部分问题,更新点如下:
功能新增和优化:
- OCR类模型默认下载源从
BOS改为HuggingFace,同时也支持用户通过更改环境变量PADDLE_PDX_MODEL_SOURCE为BOS,将模型下载源设置为百度云对象存储BOS。 - 新增PP-OCRv5的Android端示例,详情。
- 优化PP-StructureV3产线中版面分区排序算法,对复杂竖版版面排序逻辑进行完善,进一步提升了复杂版面排序效果。
- 为MKL-DNN缓存大小设置默认上界,防止缓存无限增长。同时,支持用户配置缓存容量。@timminator
- 更新高性能推理默认配置,支持Paddle MKL-DNN加速。优化高性能推理自动配置逻辑,支持更智能的配置选择。
- 调整默认设备获取逻辑,考虑环境中安装的Paddle框架对计算设备的实际支持情况,使程序行为更符合直觉。
- 模型与环境支持时,CPU下默认启用MKLDNN推理后端。
- 优化语义分割模块数据校验部分,并在数据格式错误时抛出详细引导信息。
Bug修复:
- 修复基础服务化部署在使用MKL-DNN时可能出现的多线程错误。
- 修复Latex-OCR模型的图像预处理的通道顺序错误。
- 修复文本识别模块保存可视化图像的通道顺序错误。
- 修复PP-StructureV3中表格可视化结果通道顺序错误。
- 修复PP-StructureV3产线中极特殊的情况下,计算overlap_ratio时,变量溢出问题。
其他:
- 放松numpy、pandas、等依赖的版本限制,恢复对Python 3.12的支持。
- 限制pycocotools版本号,避免其更新带来的不兼容问题。
v3.0.1
v3.0.1版本,修复和优化3.0.0版本的部分问题,升级修复点如下:
优化部分模型和模型配置:
- PP-OCRv5默认模型配置,检测和识别均改为server模型。为了改善大多数的场景默认效果,配置中的参数
limit_side_len由736改为64 - 新增
PP-LCNet_x1_0_textline_ori模型,精度99.42%,OCR、PP-StructureV3、PP-ChatOCRv4产线的默认文本行方向分类器改为该模型 - 优化
PP-LCNet_x0_25_textline_ori模型,精度提升3.3个百分点,当前精度98.85%
优化和修复部分问题:
- 修复由于公式识别、表格识别模型无法使用mkldnn导致PP-StructureV3在部分cpu推理报错的问题
- 修复在部分GPU环境中推理报
FatalError: Process abort signal is detected by the operating system错误的问题 - 修复部分Python3.8环境的type hint的问题
- 修复默认设备获取逻辑,使程序实际行为与文档中的说明一致。在
GPUtil不可用时默认使用CPU,同时支持通过CUDA_VISIBLE_DEVICES环境变量控制使用的默认GPU设备 - 修复重新安装paddlex whl时,由于历史字体文件未删除引发的安装错误
- 去除表格识别和表格识别v2产线服务接口中的无效参数
- 优化使用CPU版本Paddle并试图安装GPU版本高性能推理插件时的错误提示
- 更新依赖的Paddle2ONNX版本为2.0.2rc3
PaddleX 3.0 正式版
PaddleX3.0 汇聚了飞桨多年的精选模型,涵盖多个不同的AI方向,并且在此基础上,统一了模型的接口,降低了模型开发的难度。PaddleX3.0提供了多模型组合使用的方式、提供了较多产业级方便易用的pipeline,并提供了多种模型部署的工具。基于PaddleX3.0,可以快速完成AI应用的开发和落地。PaddleX3.0 一共经历过6个版本,本次发布为PaddleX3.0正式版。相比2.x版本,3.0版本的主要能力如下:
丰富的模型库:
- 模型丰富: PaddleX3.0 包含270+模型,涵盖了图像(视频)分类/检测/分割、OCR、语音识别、时序等多种场景。
- 方案成熟: PaddleX3.0 基于丰富的模型库,提供了通用文档解析、关键信息抽取、文档理解、表格识别、通用图像识别等多种重要且成熟的AI解决方案。
统一推理接口,重构部署能力:
- 推理接口标准化,降低不同种类模型带来的API接口差异,减少用户学习成本,提升企业落地效率。
- 提供多模型组合能力,复杂任务可以通过不同的模型方便地进行组合使用,实现1+1>2 的能力。
- 部署能力升级,多种模型部署可以使用统一的命令管理,支持多卡推理,支持多卡多实例服务化部署。
全面适配飞桨框架3.0:
- 全面适配飞桨框架3.0新特性: 支持编译器训练,训练命令通过追加
-o Global.dy2st=True即可开启编译器训练,在 GPU 上,多数模型训练速度可提升 10% 以上,少部分模型训练速度可以提升 30% 以上。推理方面,模型整体适配飞桨 3.0 中间表示技术(PIR),拥有更加灵活的扩展能力和兼容性,静态图模型存储文件名由xxx.pdmodel改为xxx.json。 - 全面支持 ONNX 格式模型: 支持通过Paddle2ONNX插件转换模型格式。
重磅能力支撑:
- 支撑PP-OCRv5的串联逻辑和多硬件推理、多后端推理、服务化部署能力。
- 支撑PP-StructureV3的复杂模型串联和并联的逻辑,首次串联并联共15个模型,实现多模型协同的复杂pipeline。精度在 OmniDocBench 榜单上达到 SOTA 水平。
- 支撑PP-ChatOCRv4的大模型串联逻辑,结合文心大模型4.5Turbo,结合新增的PP-DocBee2,关键信息抽取精度相比上一代提升15.7个百分点。
多硬件支持:
- 整体支持英伟达、英特尔、苹果M系列、昆仑芯、昇腾、寒武纪、海光、燧原等芯片的训练和推理。
- 在昇腾上,全面适配的模型达到200个, 支持OM高性能推理的模型达到21个。此外支持PP-OCRv5、PP-StructureV3等重要模型方案。
- 在昆仑芯上支持重要分类、检测、OCR类模型(含PP-OCRv5)。
PaddleX v3.0-rc1
PaddleX 3.0 rc1 全面适配 PaddlePaddle 3.0正式版,核心升级如下:
-
全面适配飞桨框架3.0新特性:支持编译器训练,训练命令通过追加
-o Global.dy2st=True即可开启编译器训练,在 GPU 上,多数模型训练速度可提升 10% 以上,少部分模型训练速度可以提升 30% 以上。推理方面,模型整体适配飞桨 3.0 中间表示技术(PIR),拥有更加灵活的扩展能力和兼容性,静态图模型存储文件名由xxx.pdmodel改为xxx.json。 -
新增飞桨自研文档图像理解多模态大模型 PP-DocBee:在学术界及内部业务场景文档理解评测榜单上,PP-DocBee 均达到同参数量级别模型的 SOTA 水平。可应用到财报、研报、合同、说明书、法律法规等文档 QA 场景。
-
全面支持 ONNX 格式模型,支持通过Paddle2ONNX插件转换模型格式。
-
升级高性能推理:
- 新增对 ONNX、OM 格式模型的支持: PaddleX 可以根据需要智能选择模型格式;
- 扩展支持的产线和模块: 所有静态图推理的单功能模块与产线均可使用高性能推理插件来提升推理性能;
- 支持 CLI、API、配置文件 3 种配置方式: 支持更精细的配置,用户可以在子产线、子模块粒度启用和禁用高性能推理插件。
-
多硬件支持扩展:
- NPU:昇腾全面验证的模型数量提升到 200 个。此外,通用 OCR、图像分类、目标检测等常用产线支持 OM 模型格式推理,推理速度能够提升 113.8%-226.4%,支持在 Atlas 200、Atlas 300 系列产品上推理部署。
- GCU:燧原正式纳入飞桨例行发版体系,完成了 PaddleX 生态适配。支持 90 个模型的训练和推理。