网站首页 > 技术教程 正文
导读
PaddleOCR是百度开源基于PaddlePaddle深度学习框架的OCR工具库,里面包含了多种文字检测和文字识别的算法模型以及模型的部署到生成环境的方法。
效果展示
我们先来看看百度开源的OCR模型的识别效果如何
PP-OCR模型架构
PP-OCR是一个实用的超轻量OCR系统。主要由DB文本检测、检测框矫正和CRNN文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化8个方面,采用19个有效策略,对各个模块的模型进行效果调优和瘦身,最终得到整体大小为3.5M的超轻量中英文OCR和2.8M的英文数字OCR。
开源的预训练模型
百度一共开源了两个版本的OCR模型,轻量版的适合移动端使用识别效果还是不错的,相对于通用OCR模型的识别效果要差点。如果是在服务器上部署,建议还是使用通用的OCR模型。
最近官方也开源了除了中文之外其他语言的OCR模型,有兴趣的同学可以去试试看。
注意:上面的方向分类器是在文字检测后使用的,实际测试发现如果检测的图片不是90度或270度旋转时,会影响检测效果,建议纠正角度之后再进行识别可获得更好的识别效果。
环境准备
- 安装PaddlePaddle
注意:最新版的PandleOCR需要安装2.0.0的PaddlePaddle
- CUDA:9.0、10.1、10.2、11.0或CPU版本
- CUDNN:7.6+
python -m pip install paddlepaddle-gpu==2.0.0.post101 -f https://paddlepaddle.org.cn/whl/stable.html
2.clone代码或直接下载
git clone https://github.com/PaddlePaddle/PaddleOCR.git
3.安装第三方库
cd PaddleOCR
pip3 install -r requirements.txt
下载预训练模型
点击预训练模型中的表格链接下载预训练模型,在PaddleOCR目录下新建一个inference目录,将下载的模型文件放到该目录下并解压。
模型推理预测
在执行预测时,需要通过参数image_dir指定单张图像或者图像集合的路径、参数det_model_dir,cls_model_dir和rec_model_dir分别指定检测,方向分类和识别的inference模型路径。参数use_angle_cls用于控制是否启用方向分类模型。可视化识别结果默认保存到 ./inference_results 文件夹里面。
# 使用方向分类器
python3 tools/infer/predict_system.py --image_dir="./doc/imgs/00018069.jpg" --det_model_dir="./inference/det_db/" --cls_model_dir="./inference/cls/" --rec_model_dir="./inference/rec_crnn/" --use_angle_cls=true
# 不使用方向分类器
python3 tools/infer/predict_system.py --image_dir="./doc/imgs/00018069.jpg" --det_model_dir="./inference/det_db/" --rec_model_dir="./inference/rec_crnn/" --use_angle_cls=false
生成环境的部署
PaddleOCR提供2种服务部署方式:
- 基于PaddleHub Serving的部署:代码路径为"./deploy/hubserving"
- 基于PaddleServing的部署:代码路径为"./deploy/pdserving"
还提供了基于Paddle Lite 在移动端部署PaddleOCR方法,官方还提供了移动端的Demo程序感兴趣的同学可以下载试试看,详细介绍的部署可以参考官方文档。
- 上一篇: 大厂开源真香,百度开源的超轻量级OCR工具库强大且实用
- 下一篇: 9个主流OCR模型多场景综合评测
猜你喜欢
- 2025-01-15 一款好用的OCR文字识别软件
- 2025-01-15 OCR+PDF解析配套前端工具开源详解!
- 2025-01-15 盘点18个优秀图像识别开源项目
- 2025-01-15 OCR小白也能上手!Llama-OCR只需5行代码,轻松实现高质量识别!
- 2025-01-15 PaddleOCR又一款开源中文文字识别,支持轻量级、通用级文字
- 2025-01-15 eSearch:开源软件牛B,截屏+OCR+翻译,这个让你屏幕无所不能!
- 2025-01-15 无问芯穹开源全球首款端侧全模态理解模型Megrez-3B-Omni
- 2025-01-15 surya,一个优秀的OCR开源项目,更专注于表格识别
- 2025-01-15 EasyOCR 一个好用的图片识别开源项目使用详解
- 2025-01-15 免费,开源,可批量的离线OCR软件来了
你 发表评论:
欢迎- 01-15什么是Tiff格式?怎样压缩tiff图片?
- 01-15怎么将图片格式进行转换?教你两招tif转pdf技巧
- 01-15tif文件如何转换成jpg?图文步骤详解
- 01-150.98T优于10米的全国高程TIF数据
- 01-15图片转pdf:tif是什么格式?如何将tif转成PDF?
- 01-15一款好用的OCR文字识别软件
- 01-15OCR+PDF解析配套前端工具开源详解!
- 01-15盘点18个优秀图像识别开源项目
- 最近发表
- 标签列表
-
- sd分区 (65)
- raid5数据恢复 (81)
- 地址转换 (73)
- 手机存储卡根目录 (55)
- tcp端口 (74)
- project server (59)
- 双击ctrl (55)
- 鼠标 单击变双击 (67)
- debugview (59)
- 字符动画 (65)
- flushdns (57)
- ps复制快捷键 (57)
- 清除系统垃圾代码 (58)
- web服务器的架设 (67)
- 16进制转换 (69)
- xclient (55)
- ps源文件 (67)
- filezilla server (59)
- 句柄无效 (56)
- word页眉页脚设置 (59)
- ansys实例 (56)
- 6 1 3固件 (59)
- sqlserver2000挂起 (59)
- vm虚拟主机 (55)
- config (61)
本文暂时没有评论,来添加一个吧(●'◡'●)