国产开源多模态大模型来了!浦语灵笔 InternLM-XComposer-2.5,超过GPT-4V

发布于:2024-07-09 ⋅ 阅读:(235) ⋅ 点赞:(0)

在这里插入图片描述

浦语•灵笔2.5(InternLM-XComposer-2.5,简称IXC-2.5)是基于书生•浦语2大语言模型研发的突破性的图文多模态大模型,仅使用7B LLM 后端就达到了 GPT-4V 级别的能力。

浦语•灵笔2.5使用24K交错的图像-文本上下文进行训练,通过ROPE外推可以无缝扩展到 96K 长的上下文。这种长上下文能力使浦语•灵笔2.5在需要广泛输入和输出上下文的任务中表现出色。

1. 模型架构

InternLM-XComposer-2.5(IXC2.5)的模型架构主要遵循 InternLM-XComposer2 和 InternLM-XComposer2-4KHD(简称为 IXC2 和 IXC2-4KHD)的设计,包括轻量级视觉编码器 OpenAI ViT-L/14、大型语言模型 InternLM2-7B 和部分 LoRA 以实现高效对齐。

在这里插入图片描述

图:InternLM-XComposer-2.5 (IXC-2.5) 整体框架

官网:https://internlm.intern-ai.org.cn/
论文地址:https://arxiv.org/html/2407.03320
项目地址:https://github.com/InternLM/InternLM-XComposer
体验地址:https://huggingface.co/spaces/Willow123/InternLM-XComposer

2. 主要功能

下面介绍一下 InternLM-XComposer-2.5 的主要功能:

  1. 超高分辨率理解浦语•灵笔2.5使用560×560分辨率的VT视觉编码器增强了 IXC2-4KHD 中提出的动态分辨率解决方案,支持具有任意纵横比的高分辨率图像。

在这里插入图片描述

  1. 多轮多图像对话浦语•灵笔2.5支持自由形式的多轮多图像对话,使其能够在多轮对话中与人类自然互动。

在这里插入图片描述

  1. 细粒度视频理解浦语•灵笔2.5将视频视为由数十到数千帧组成的超高分辨率复合图像,从而通过密集采样和每帧更高的分辨率捕捉细节。

在这里插入图片描述

  1. 网页制作浦语•灵笔2.5可以通过遵循文本-图像指令来创建网页,包括源代码(HTML、CSS和JavaScript)的组合。

在这里插入图片描述

  1. 高质量文本-图像文章创作浦语•灵笔2.5利用特别设计的“思维链”(CoT)和“直接偏好优化”(DPO)技术,显著提高了其创作内容的质量。

在这里插入图片描述

  1. 出色的性能浦语•灵笔2.5在 28 个基准测试中进行了评估,在16个基准测试上优于现有的开源先进模型。它还在16个关键任务上超越或与 GPT-4V 和 Gemini Pro 表现相近。

在这里插入图片描述

图:InternLM-XComposer-2.5 (IXC-2.5) 在不同领域基准测试中的性能概览

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。