网站首页 > 技术教程 正文
之前写的文章就介绍过OCR(光学字符识别),各大厂也逐渐开源了自己的OCR工具以及大模型。
最近huggingface开源了一款端对端的大模型GOT-OCR2.0 ,OCR2.0不仅能够识别常规文本,而且还能识别数学公式,乐谱、图形等复杂的内容,我觉得可以称之为全能选手了。
介绍
GOT-OCR2.0是一款端对端的OCR模型,解决了OCR1.0的难题和痛点。支持传统的多种场景文档识别,而且支持复杂数学公式,图形等复杂内容。它采用集成的version encoder 、decoder 能处理多种类型输入以及高分辨率的图形处理。随着OCR2.0的发布,标志着新一代OCR技术的到来。
官网地址:https://huggingface.co/ucaslcl/GOT-OCR2_0
github地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0
安装
小伙伴安装的话最好是GPU或者强劲的CPU
//clone 代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0
//安装环境
conda create -n got python=3.10 -y
conda activate got
pip install -e .
//安装Flash-Attention
pip install ninja
pip install flash-attn --no-build-isolation
下载GOT-WEIGHT
https://pan.baidu.com/s/1G4aArpCOt6I_trHv_1SE2g?code=OCR2
//plain texts OCR:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
//format texts OCR:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type format
识别效果:
优势、缺点
我觉得OCR2.0能识别数学公式已经很不错了,而且OCR2.0支持多种OCR场景任务、支持高分辨率识别、端对端模型设计而且只有不到1.5G。研究团队说GOT-OCR2.0 还有上升空间,比如在国际化方面不是很好,目前就中文、英文比较好,其他语言暂时还不支持,但是研究团队的这种探索的心态确实值得称赞。[赞]
论文:https://arxiv.org/pdf/2409.0170 感兴趣的小伙伴可以去看看论文。
好了,今天的介绍就到这里了。想继续探索GOT-OCR2.0的小伙伴上官网以及github上看更多的资料吧,也可以评论区给我留言。后面有时间的话准备做一篇PaddleOCrR VS GOT-OCR2.0 ,同时也欢迎小伙伴的一起参与,为开源做贡献。[作揖]
- 上一篇: 9个主流OCR模型多场景综合评测
- 下一篇: 几款开源的OCR识别项目,收藏备用
猜你喜欢
- 2025-01-15 一款好用的OCR文字识别软件
- 2025-01-15 OCR+PDF解析配套前端工具开源详解!
- 2025-01-15 盘点18个优秀图像识别开源项目
- 2025-01-15 OCR小白也能上手!Llama-OCR只需5行代码,轻松实现高质量识别!
- 2025-01-15 PaddleOCR又一款开源中文文字识别,支持轻量级、通用级文字
- 2025-01-15 eSearch:开源软件牛B,截屏+OCR+翻译,这个让你屏幕无所不能!
- 2025-01-15 无问芯穹开源全球首款端侧全模态理解模型Megrez-3B-Omni
- 2025-01-15 surya,一个优秀的OCR开源项目,更专注于表格识别
- 2025-01-15 EasyOCR 一个好用的图片识别开源项目使用详解
- 2025-01-15 免费,开源,可批量的离线OCR软件来了
你 发表评论:
欢迎- 01-15什么是Tiff格式?怎样压缩tiff图片?
- 01-15怎么将图片格式进行转换?教你两招tif转pdf技巧
- 01-15tif文件如何转换成jpg?图文步骤详解
- 01-150.98T优于10米的全国高程TIF数据
- 01-15图片转pdf:tif是什么格式?如何将tif转成PDF?
- 01-15一款好用的OCR文字识别软件
- 01-15OCR+PDF解析配套前端工具开源详解!
- 01-15盘点18个优秀图像识别开源项目
- 最近发表
- 标签列表
-
- sd分区 (65)
- raid5数据恢复 (81)
- 地址转换 (73)
- 手机存储卡根目录 (55)
- tcp端口 (74)
- project server (59)
- 双击ctrl (55)
- 鼠标 单击变双击 (67)
- debugview (59)
- 字符动画 (65)
- flushdns (57)
- ps复制快捷键 (57)
- 清除系统垃圾代码 (58)
- web服务器的架设 (67)
- 16进制转换 (69)
- xclient (55)
- ps源文件 (67)
- filezilla server (59)
- 句柄无效 (56)
- word页眉页脚设置 (59)
- ansys实例 (56)
- 6 1 3固件 (59)
- sqlserver2000挂起 (59)
- vm虚拟主机 (55)
- config (61)
本文暂时没有评论,来添加一个吧(●'◡'●)