项目名称 | MiniCPM-V |
项目类型 | 多模态大模型 |
项目地址 | MiniCPM-V/README_zh.md at main · OpenBMB/MiniCPM-V · GitHub |
项目简介 | 面向图文理解的端侧多模态大模型系列,接受图像和文本输入,并提供高质量的文本输出。 |
MiniCPM-V 开源项目介绍
MiniCPM-V是由面壁智能推出的一款面向图文理解的端侧多模态大模型系列。该系列模型以其卓越的性能和丰富的功能,成为了众多开发者和研究者的焦点。MiniCPM-V系列模型在保持较小参数规模的同时,展现出了强大的多模态处理能力,能够处理图像、视频等多种数据类型,并实现了一系列先进的功能。这款模型的出现,为端侧设备上的人工智能应用提供了新的可能性。
项目优势
MiniCPM-V系列模型具有以下显著优势:
-
领先的性能:在多个评测基准中,MiniCPM-V系列模型展现出了优异的性能,甚至在某些方面超越了参数量更大的模型如GPT-4V。
-
多图理解与上下文学习:支持多图对话与推理,在主流多图评测基准中表现顶尖,并展现出了优秀的上下文学习能力。
-
视频理解能力:能够接收视频输入,进行对话并提供涵盖时序和空间信息的详细视频描述。
-
强大的OCR能力:能够处理任意长宽比的高分辨率图像,像素数可达180万,在OCRBench上取得最佳水平。
-
效率卓越:展现出最先进的视觉token密度,优化了模型的推理速度、首token延迟、内存占用和功耗。
-
使用便捷:支持多种部署方式,包括本地CPU推理、量化模型、vLLM支持高吞吐量和内存高效推理等。
-
多语言支持:基于VisCPM技术,支持30多种语言的多模态能力,并表现出了良好的多语言多模态对话性能。
使用场景
MiniCPM-V系列模型在多个领域具有广泛的应用潜力,可以为用户提供更便捷、更具创意的创作体验:
-
智能手机应用:可以用于手机上的图像识别、文字识别、问答、语音助手等功能。
-
智慧家居:可以用于智能家居设备的图像识别、语音控制、信息查询等功能。
-
工业应用:可以用于工业场景的图像识别、故障诊断、安全监控等功能。
-
医疗领域:可以用于医学图像分析、诊断辅助等功能。
-
教育领域:可以用于智能辅导系统,帮助学生解答问题、理解知识点。
项目详细情况
MiniCPM-V系列模型的最新版本包括MiniCPM-V 2.6、MiniCPM-Llama3-V 2.5和MiniCPM-V 2.0等。这些模型在性能和功能上都有显著的提升和扩展。
-
MiniCPM-V 2.6:作为系列中的最新和性能最佳的模型,MiniCPM-V 2.6在单图、多图和视频理解方面超越了GPT-4V。它基于SigLip-400M和Qwen2-7B构建,共8B参数,并引入了多图和视频理解的新功能。
-
MiniCPM-Llama3-V 2.5:该模型基于SigLip-400M和Llama3-8B-Instruct构建,共8B参数量,提供了出色的端侧多模态理解能力。它在多个评测基准中取得了优异的成绩,并支持多语言能力。
-
MiniCPM-V 2.0:作为系列中最轻量级模型,MiniCPM-V 2.0总参数量2B,但在多模态综合性能上超越了更大参数规模的模型。它可以接受180万像素的任意长宽比图像输入,并实现了与Gemini Pro相近的场景文字识别能力。
此外,MiniCPM-V系列模型还支持多种部署方式,包括llama.cpp、ollama、vLLM等,使得模型可以在不同的环境和设备上高效运行。
相关链接
- GitHub项目地址:MiniCPM-V
- Hugging Face模型库:
- 技术报告:MiniCPM-Llama3-V 2.5技术报告
- 在线demo: http://120.92.209.146:8887/