分享免费的编程资源和教程

网站首页 > 技术教程正文

无问芯穹开源全球首款端侧全模态理解模型Megrez-3B-Omni

goqiw 2025-01-15 12:53:12 技术教程 33 ℃ 0 评论

IT之家 12 月 16 日消息，无问芯穹今日宣布，开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。

官方表示，Megrez-3B-Omni 是一个为端而生的全模态理解模型，同时具备图片、音频、文本三种模态数据的处理能力：

在图像理解方面，Megrez-3B-Omni 是目前 OpenCompass、MME、MMMU、OCRBench 等多个主流测试集上精度最高的图像理解模型之一。

在文本理解方面，Megrez-3B-Omni 在 C-EVAL、MMLU / MMLU Pro、AlignBench 等多个权威测试集上取得端上模型最优精度。

在语音理解方面，Megrez-3B-Omni 支持中文和英文的语音输入，还能够处理复杂的多轮对话场景，也能支持对输入图片或文字的语音提问，实现不同模态间的自由切换。

官方宣称，与上一代及其他端侧大语言模型相比，单模态版本的 Megrez-3B-Instruct 在推理速度上取得了显著提升，最大推理速度可以领先同精度模型 300%。

IT之家附相关链接如下：

Github：https://github.com/infinigence/Infini-Megrez
HuggingFace：https://huggingface.co/Infinigence/Megrez-3B-Omni
Infini-AI 异构云：https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr
Modelers：https://modelers.cn/models/INFINIGENCE-AI/Megrez-3B-Omni
ModelScope：https://www.modelscope.cn/models/InfiniAI/Megrez-3B-Omni

上一篇： surya，一个优秀的OCR开源项目，更专注于表格识别
下一篇： eSearch:开源软件牛B，截屏+OCR+翻译，这个让你屏幕无所不能!

猜你喜欢

2025-01-15 一款好用的OCR文字识别软件
2025-01-15 OCR+PDF解析配套前端工具开源详解!
2025-01-15 盘点18个优秀图像识别开源项目
2025-01-15 OCR小白也能上手!Llama-OCR只需5行代码，轻松实现高质量识别!
2025-01-15 PaddleOCR又一款开源中文文字识别，支持轻量级、通用级文字
2025-01-15 eSearch:开源软件牛B，截屏+OCR+翻译，这个让你屏幕无所不能!
2025-01-15 surya，一个优秀的OCR开源项目，更专注于表格识别
2025-01-15 EasyOCR 一个好用的图片识别开源项目使用详解
2025-01-15 免费，开源，可批量的离线OCR软件来了
2025-01-15 LLM-Aided OCR :一款开源的OCR工具!

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

最近发表