网站首页 > 技术教程正文

OCR到头了?No!No! OCR2.0 强势开源来袭

goqiw 2025-01-15 12:51:55 技术教程 26 ℃ 0 评论

之前写的文章就介绍过OCR（光学字符识别），各大厂也逐渐开源了自己的OCR工具以及大模型。

最近huggingface开源了一款端对端的大模型GOT-OCR2.0 ，OCR2.0不仅能够识别常规文本，而且还能识别数学公式，乐谱、图形等复杂的内容，我觉得可以称之为全能选手了。

介绍

GOT-OCR2.0是一款端对端的OCR模型，解决了OCR1.0的难题和痛点。支持传统的多种场景文档识别，而且支持复杂数学公式，图形等复杂内容。它采用集成的version encoder 、decoder 能处理多种类型输入以及高分辨率的图形处理。随着OCR2.0的发布，标志着新一代OCR技术的到来。

官网地址：https://huggingface.co/ucaslcl/GOT-OCR2_0

github地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

安装

小伙伴安装的话最好是GPU或者强劲的CPU

//clone 代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

//安装环境
conda create -n got python=3.10 -y
conda activate got
pip install -e .

//安装Flash-Attention
pip install ninja
pip install flash-attn --no-build-isolation

下载GOT-WEIGHT

https://pan.baidu.com/s/1G4aArpCOt6I_trHv_1SE2g?code=OCR2

//plain texts OCR:
python3 GOT/demo/run_ocr_2.0.py  --model-name  /GOT_weights/  --image-file  /an/image/file.png  --type ocr

//format texts OCR:
python3 GOT/demo/run_ocr_2.0.py  --model-name  /GOT_weights/  --image-file  /an/image/file.png  --type format

识别效果：

优势、缺点

我觉得OCR2.0能识别数学公式已经很不错了，而且OCR2.0支持多种OCR场景任务、支持高分辨率识别、端对端模型设计而且只有不到1.5G。研究团队说GOT-OCR2.0 还有上升空间，比如在国际化方面不是很好，目前就中文、英文比较好，其他语言暂时还不支持，但是研究团队的这种探索的心态确实值得称赞。[赞]

论文：https://arxiv.org/pdf/2409.0170 感兴趣的小伙伴可以去看看论文。

好了，今天的介绍就到这里了。想继续探索GOT-OCR2.0的小伙伴上官网以及github上看更多的资料吧，也可以评论区给我留言。后面有时间的话准备做一篇PaddleOCrR VS GOT-OCR2.0 ，同时也欢迎小伙伴的一起参与，为开源做贡献。[作揖]

上一篇： 9个主流OCR模型多场景综合评测
下一篇：几款开源的OCR识别项目，收藏备用

网站首页 > 技术教程正文

OCR到头了?No!No! OCR2.0 强势开源来袭

介绍

安装

优势、缺点

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术教程 正文

OCR到头了?No!No! OCR2.0 强势开源来袭

介绍

安装

优势、缺点

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术教程正文

取消回复欢迎你发表评论: