网站首页 > 技术教程 正文
IT之家 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。
项目背景
传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。
而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。
项目简介
微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。
该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。
OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。
OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。
测试表现
OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。
这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。
同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。
OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。
IT之家附上参考地址
- 上一篇: 相当炸裂!这个开源的OCR项目,什么都能识别?
- 下一篇: 大厂背书,开源OCR工具PaddleOCR
猜你喜欢
- 2025-01-15 一款好用的OCR文字识别软件
- 2025-01-15 OCR+PDF解析配套前端工具开源详解!
- 2025-01-15 盘点18个优秀图像识别开源项目
- 2025-01-15 OCR小白也能上手!Llama-OCR只需5行代码,轻松实现高质量识别!
- 2025-01-15 PaddleOCR又一款开源中文文字识别,支持轻量级、通用级文字
- 2025-01-15 eSearch:开源软件牛B,截屏+OCR+翻译,这个让你屏幕无所不能!
- 2025-01-15 无问芯穹开源全球首款端侧全模态理解模型Megrez-3B-Omni
- 2025-01-15 surya,一个优秀的OCR开源项目,更专注于表格识别
- 2025-01-15 EasyOCR 一个好用的图片识别开源项目使用详解
- 2025-01-15 免费,开源,可批量的离线OCR软件来了
你 发表评论:
欢迎- 01-15什么是Tiff格式?怎样压缩tiff图片?
- 01-15怎么将图片格式进行转换?教你两招tif转pdf技巧
- 01-15tif文件如何转换成jpg?图文步骤详解
- 01-150.98T优于10米的全国高程TIF数据
- 01-15图片转pdf:tif是什么格式?如何将tif转成PDF?
- 01-15一款好用的OCR文字识别软件
- 01-15OCR+PDF解析配套前端工具开源详解!
- 01-15盘点18个优秀图像识别开源项目
- 最近发表
- 标签列表
-
- sd分区 (65)
- raid5数据恢复 (81)
- 地址转换 (73)
- 手机存储卡根目录 (55)
- tcp端口 (74)
- project server (59)
- 双击ctrl (55)
- 鼠标 单击变双击 (67)
- debugview (59)
- 字符动画 (65)
- flushdns (57)
- ps复制快捷键 (57)
- 清除系统垃圾代码 (58)
- web服务器的架设 (67)
- 16进制转换 (69)
- xclient (55)
- ps源文件 (67)
- filezilla server (59)
- 句柄无效 (56)
- word页眉页脚设置 (59)
- ansys实例 (56)
- 6 1 3固件 (59)
- sqlserver2000挂起 (59)
- vm虚拟主机 (55)
- config (61)
本文暂时没有评论,来添加一个吧(●'◡'●)