贾佳亚团队发布Mini-Gemini多模态模型:对标ChatGPT+DALL-E 3王炸组合,代码、模型、数据全开源

发布于:2024-04-24 ⋅ 阅读:(18) ⋅ 点赞:(0)
引言

随着大语言模型(LLM)的快速发展,赋予其多模态输入输出能力已成为当前Vision Language Model (VLM)研究的重点方向。然而,即便是业界顶尖的模型,如GPT-4和Gemini,在视觉理解和生成方面仍存在一定的局限性。香港中文大学终身教授贾佳亚团队最新提出的Mini-Gemini模型,力图通过创新的网络架构和高质量数据,进一步挖掘VLM的潜力,实现跨模态的感知、推理和生成能力。

  • Huggingface模型下载:https://huggingface.co/YanweiLi

  • AI快站模型免费加速下载:https://aifasthub.com/models/YanweiLi

模型创新

Mini-Gemini的核心创新点主要体现在三个方面:高效的高分辨率视觉编码机制、高质量的多模态训练数据,以及与生成模型的深度融合。

首先,Mini-Gemini采用了一种双编码器架构,将传统的视觉变换模型(ViT)作为低分辨率查询,而使用卷积网络(ConvNet)编码高分辨率图像作为键值。通过Transformer注意力机制,它能够挖掘每个低分辨率查询对应的高分辨率区域,在保持视觉token数量不变的情况下提升了对高清图像的理解。这种设计大大提高了编码效率,同时也支持根据需求自适应调整图像分辨率。

其次,研究团队收集并优化了包括图文配对、指令跟踪等在内的高质量多模态数据集,并融入了与生成模型相关的文本数据,使Mini-Gemini具备从理解到生成的统一能力。值得一提的是,在仅使用2-3M数据的情况下,Mini-Gemini就实现了这一目标。

最后,Mini-Gemini还与SDXL等生成模型进行了深度融合,利用LLM生成的文本作为条件,实现了基于推理的图像生成。这种结合理解和生成的能力,将Mini-Gemini打造成了开源社区版"ChatGPT+DALL-E 3"的缩影。

性能评测

Mini-Gemini在各种零样本基准测试中的表现,与业内领先的商业模型不遑多让。以TextVQA为例,Mini-Gemini-34B-HD版本的得分高达74.1%,与Gemini Pro相当。在MMB和MMMU等更加复杂的测试中,Mini-Gemini也同样取得了出色的成绩,甚至超越了GPT-4V。

这些优异的结果,得益于Mini-Gemini在高分辨率图像理解、推理和生成等方面的卓越能力。在线上Demo中,人们惊讶地发现,它不仅能准确解释复杂图像,还可以依据用户指令生成符合情景的图像,堪比ChatGPT和DALL-E 3的完美组合。

梗图理解和数学图表复现

除了图像理解和生成,Mini-Gemini还展现出对梗图的深入理解。通过其强大的OCR和推理能力,它能够准确识别图中的笑点所在,甚至推测出制作者的深层意图。

比如一张将麦当劳P成GYM的表情包,Mini-Gemini准确解释了其讽刺的含义。又或是"当某媒体说AI将接管世界,实际上我的神经网络连猫未能识别"的梗图,它也能理解图中细节的幽默之处。

对于数学和科学图表,Mini-Gemini更是轻车熟路。不仅能理解图中的数学含义(如高斯分布曲线),还能用代码高质量还原相关曲线图,大大提升了工作效率。这对于需要频繁处理复杂图表的从业者来说,无疑是一大福音。

总的来说,Mini-Gemini集多模态理解、推理和生成于一身,堪称开源社区版的"ChatGPT+DALL-E 3"。其高清图像理解、高质量训练数据和强大的生成能力,使其在多个指标上超越业内领先模型,为广大开发者提供了一个强大的多模态AI助手。

结论

总的来说,Mini-Gemini集多模态理解、推理和生成于一身,堪称开源社区版的"ChatGPT+DALL-E 3"。其高清图像理解、高质量训练数据和强大的生成能力,使其在多个指标上超越业内领先模型,为广大开发者提供了一个强大的多模态AI助手。Mini-Gemini的开源举措,必将推动AI开源社区的进一步发展,为业界注入新的活力。

模型下载

Huggingface模型下载

https://huggingface.co/YanweiLi

AI快站模型免费加速下载

https://aifasthub.com/models/YanweiLi