分享免费的编程资源和教程

网站首页 > 技术教程 正文

OCR到头了?No!No! OCR2.0 强势开源来袭

goqiw 2025-01-15 12:51:55 技术教程 2 ℃ 0 评论

之前写的文章就介绍过OCR(光学字符识别),各大厂也逐渐开源了自己的OCR工具以及大模型。

强烈推荐百度开源PaddleOCR,么有之一


最近huggingface开源了一款端对端的大模型GOT-OCR2.0 ,OCR2.0不仅能够识别常规文本,而且还能识别数学公式,乐谱、图形等复杂的内容,我觉得可以称之为全能选手了。

介绍

GOT-OCR2.0是一款端对端的OCR模型,解决了OCR1.0的难题和痛点。支持传统的多种场景文档识别,而且支持复杂数学公式,图形等复杂内容。它采用集成的version encoder decoder 能处理多种类型输入以及高分辨率的图形处理。随着OCR2.0的发布,标志着新一代OCR技术的到来。


官网地址:https://huggingface.co/ucaslcl/GOT-OCR2_0

github地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

安装

小伙伴安装的话最好是GPU或者强劲的CPU

//clone 代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

//安装环境
conda create -n got python=3.10 -y
conda activate got
pip install -e .

//安装Flash-Attention
pip install ninja
pip install flash-attn --no-build-isolation


下载GOT-WEIGHT

https://pan.baidu.com/s/1G4aArpCOt6I_trHv_1SE2g?code=OCR2

//plain texts OCR:
python3 GOT/demo/run_ocr_2.0.py  --model-name  /GOT_weights/  --image-file  /an/image/file.png  --type ocr

//format texts OCR:
python3 GOT/demo/run_ocr_2.0.py  --model-name  /GOT_weights/  --image-file  /an/image/file.png  --type format

识别效果:

优势、缺点

我觉得OCR2.0能识别数学公式已经很不错了,而且OCR2.0支持多种OCR场景任务、支持高分辨率识别、端对端模型设计而且只有不到1.5G。研究团队说GOT-OCR2.0 还有上升空间,比如在国际化方面不是很好,目前就中文、英文比较好,其他语言暂时还不支持,但是研究团队的这种探索的心态确实值得称赞。[赞]

论文:https://arxiv.org/pdf/2409.0170 感兴趣的小伙伴可以去看看论文。


好了,今天的介绍就到这里了。想继续探索GOT-OCR2.0的小伙伴上官网以及github上看更多的资料吧,也可以评论区给我留言。后面有时间的话准备做一篇PaddleOCrR VS GOT-OCR2.0 ,同时也欢迎小伙伴的一起参与,为开源做贡献。[作揖]

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表