贾佳亚团队发布Mini-Gemini多模态模型：对标ChatGPT+DALL-E 3王炸组合，代码、模型、数据全开源-EW帮帮网

引言

随着大语言模型(LLM)的快速发展，赋予其多模态输入输出能力已成为当前Vision Language Model (VLM)研究的重点方向。然而，即便是业界顶尖的模型，如GPT-4和Gemini，在视觉理解和生成方面仍存在一定的局限性。香港中文大学终身教授贾佳亚团队最新提出的Mini-Gemini模型，力图通过创新的网络架构和高质量数据，进一步挖掘VLM的潜力，实现跨模态的感知、推理和生成能力。

Huggingface模型下载：https://huggingface.co/YanweiLi
AI快站模型免费加速下载：https://aifasthub.com/models/YanweiLi

模型创新

Mini-Gemini的核心创新点主要体现在三个方面:高效的高分辨率视觉编码机制、高质量的多模态训练数据，以及与生成模型的深度融合。

首先，Mini-Gemini采用了一种双编码器架构，将传统的视觉变换模型(ViT)作为低分辨率查询，而使用卷积网络(ConvNet)编码高分辨率图像作为键值。通过Transformer注意力机制，它能够挖掘每个低分辨率查询对应的高分辨率区域，在保持视觉token数量不变的情况下提升了对高清图像的理解。这种设计大大提高了编码效率，同时也支持根据需求自适应调整图像分辨率。

其次，研究团队收集并优化了包括图文配对、指令跟踪等在内的高质量多模态数据集，并融入了与生成模型相关的文本数据，使Mini-Gemini具备从理解到生成的统一能力。值得一提的是，在仅使用2-3M数据的情况下，Mini-Gemini就实现了这一目标。

最后，Mini-Gemini还与SDXL等生成模型进行了深度融合，利用LLM生成的文本作为条件，实现了基于推理的图像生成。这种结合理解和生成的能力，将Mini-Gemini打造成了开源社区版"ChatGPT+DALL-E 3"的缩影。

性能评测

Mini-Gemini在各种零样本基准测试中的表现，与业内领先的商业模型不遑多让。以TextVQA为例，Mini-Gemini-34B-HD版本的得分高达74.1%，与Gemini Pro相当。在MMB和MMMU等更加复杂的测试中，Mini-Gemini也同样取得了出色的成绩，甚至超越了GPT-4V。

这些优异的结果，得益于Mini-Gemini在高分辨率图像理解、推理和生成等方面的卓越能力。在线上Demo中，人们惊讶地发现，它不仅能准确解释复杂图像，还可以依据用户指令生成符合情景的图像，堪比ChatGPT和DALL-E 3的完美组合。

梗图理解和数学图表复现

除了图像理解和生成，Mini-Gemini还展现出对梗图的深入理解。通过其强大的OCR和推理能力，它能够准确识别图中的笑点所在，甚至推测出制作者的深层意图。

比如一张将麦当劳P成GYM的表情包，Mini-Gemini准确解释了其讽刺的含义。又或是"当某媒体说AI将接管世界，实际上我的神经网络连猫未能识别"的梗图，它也能理解图中细节的幽默之处。

对于数学和科学图表，Mini-Gemini更是轻车熟路。不仅能理解图中的数学含义(如高斯分布曲线)，还能用代码高质量还原相关曲线图，大大提升了工作效率。这对于需要频繁处理复杂图表的从业者来说，无疑是一大福音。

总的来说，Mini-Gemini集多模态理解、推理和生成于一身，堪称开源社区版的"ChatGPT+DALL-E 3"。其高清图像理解、高质量训练数据和强大的生成能力，使其在多个指标上超越业内领先模型，为广大开发者提供了一个强大的多模态AI助手。

结论

总的来说，Mini-Gemini集多模态理解、推理和生成于一身，堪称开源社区版的"ChatGPT+DALL-E 3"。其高清图像理解、高质量训练数据和强大的生成能力，使其在多个指标上超越业内领先模型，为广大开发者提供了一个强大的多模态AI助手。Mini-Gemini的开源举措，必将推动AI开源社区的进一步发展，为业界注入新的活力。

模型下载

Huggingface模型下载

https://huggingface.co/YanweiLi

AI快站模型免费加速下载

https://aifasthub.com/models/YanweiLi

贾佳亚团队发布Mini-Gemini多模态模型：对标ChatGPT+DALL-E 3王炸组合，代码、模型、数据全开源

引言

模型创新

性能评测

梗图理解和数学图表复现

结论

模型下载

网站公告

今日签到

热门文章

最新发布