常用的多模态信息(Multimodal Information)指的是来源于多种感知通道/数据类型的内容,这些信息可以被整合处理,以提升理解、推理与生成能力。在人工智能和大模型系统中,典型的多模态信息主要包括以下几类:
✅ 常用多模态信息类型
模态类型 |
内容举例 |
特征 |
常用模型/技术 |
文本(Text) |
问答、对话、文章、代码、标签等 |
结构清晰,语义明确,语义表达最强 |
BERT、GPT、T5、BGE、BART |
图像(Image) |
照片、图表、插画、截图、表单等 |
空间结构强,信息直观,但不具结构化标签 |
ViT、CLIP、BLIP、ResNet |
音频(Audio) |
语音、音乐、环境声音、机器噪音等 |
时间连续性强,可携带情绪与说话人信息 |
Wav2Vec2、Whisper、CLAP |
视频(Video) |
动画、监控、电影片段、教学视频等 |
空间+时间信息结合,处理复杂 |
ViViT、Video-BERT、VideoPrism |
语音(Speech) |
人类对话、播报、讲解 |
音频子类,携带语义、情绪和音色等信息 |
Whisper、SpeechT5、VALL-E |
结构化数据(Structured Data) |
表格、CSV、数据库记录、传感器数据 |
有明确字段和关系,可计算性强 |
TAPAS、TaBERT、AutoML 表格 |
代码(Code) |
Python、HTML、SQL 等 |
逻辑严谨、结构化明确,可直接执行 |
CodeT5、Codex、StarCoder |
图(Graph) |
知识图谱、社交网络图、流程图等 |
具有节点-边结构,表达实体关系 |
GNN、GraphBERT、KG-BERT |
位置信息(Geo/Spatial) |
经纬度、地图、路径轨迹、卫星图像等 |
地理或空间依赖性强 |
GeoBERT、BEVFusion |
传感器数据(Sensor/IoT) |
温度、电流、震动、PM2.5等实时数据流 |
高频、实时、离散时间序列 |
LSTM、Informer、Transformer-TS |
网页与界面信息(Web UI) |
HTML 页面、App 界面、网页截图 |
多模信息融合,如图+文+按钮+链接 |
WebGPT、UI2Code、Screen2Vec |
🔄 多模态信息融合方式(常见形式)
融合方式 |
示例 |
说明 |
文本+图像 |
图文问答、图像描述生成 |
图像理解 + 自然语言生成 |
文本+语音 |
智能助理、语音翻译 |
语音识别 → 文本 → 回答 |
文本+视频 |
视频内容问答、字幕生成 |
视频内容分析 + 文本交互 |
文本+表格 |
报表问答、结构化摘要 |
基于表格内容进行语义分析 |
文本+代码 |
编程助手、代码生成解释 |
自然语言 ↔ 编程语言 |
图像+语音 |
视障辅助导航、图像朗读 |
图像转描述 + 语音输出 |
文本+图+结构化数据 |
多源数据决策支持 |
融合多个信息维度进行分析与生成 |
🚀 多模态信息的应用场景
场景 |
描述 |
图文问答(VQA) |
用户上传一张图,问“这是什么动物?” |
视频分析 |
给定一段视频,生成文字摘要或动作识别 |
医疗诊断 |
输入医疗图像 + 病历记录,辅助医生决策 |
教育内容生成 |
输入幻灯片或视频讲解,自动生成测试题 |
工业监控 |
结合图像、传感器数据、文字报警,实现故障识别 |
智能客服 |
用户语音 + 文本对话,结合知识库实时应答 |
机器人导航 |
输入地图图像 + 语音指令,实现路径规划 |
