"MiniCPM-V2.6"的端侧多模态人工智能模型,它仅有8B参数却取得了20B以下单图、多图、视频理解三项SOTA(State of the Art,即当前最佳水平)成绩,显著提升了端侧AI的多模态能力,与GPT-4V水平全面对标。
以下是特性概括:
模型特点:MiniCPM-V2.6在端侧实现了单图、多图和视频理解等核心能力的全面超越,并首次将实时视频理解、多图联合理解等功能带到端侧,更接近复杂的真实世界场景。
效率与性能:该模型以小博大,具有极高的像素密度(Token Density),比GPT-4o的单token编码像素密度高两倍,在端侧设备上实现了极高的运行效率。
端侧友好性:模型在量化后仅需6GB内存,端侧推理速度高达每秒18个token,比上代模型快33%,并支持多种语言和推理框架。
功能拓展:MiniCPM-V2.6通过OCR能力,将单图场景的高清图像解析能力迁移到多图和视频场景,减少了视觉token的数量,节省了资源。
推理能力:它在多图理解、复杂推理任务中展现出色能力,如调整自行车车座的步骤说明,以及对梗图背后槽点的识别。
多图ICL:模型支持上下文少样本学习,能快速适应特定领域的任务,提高输出稳定性。
高清视觉架构:通过统一的视觉架构,模型的OCR能力得以延续,实现从单图到多图及视频的流畅拓展。
超低幻觉率:MiniCPM-V2.6在幻觉评测上表现优异,展示了其可信度。
MiniCPM-V2.6模型的推出,对端侧AI的发展具有重要意义,它不仅提升了多模态处理能力,也展示了在资源受限的端侧设备上实现高性能AI的可能性。
MiniCPM-V2.6开源地址:
GitHub:
https://github.com/OpenBMB/MiniCPM-V
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp、ollama、vllm 部署教程地址:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM 系列开源地址:
https://github.com/OpenBMB/MiniCPM