【AI论文】MultiFinBen:一个用于金融大语言模型评估的多语言、多模态且具备难度感知能力的基准测试集

发布于:2025-06-25 ⋅ 阅读:(19) ⋅ 点赞:(0)

摘要:近期,大型语言模型(LLMs)的进展加速了金融自然语言处理(NLP)及其应用的发展,然而现有的基准测试仍局限于单语言和单模态场景,往往过度依赖简单任务,无法反映现实世界金融交流的复杂性。我们推出了 MultiFinBen,这是首个针对全球金融领域定制的多语言、多模态基准测试集,用于在特定领域任务上跨模态(文本、视觉、音频)和语言环境(单语言、双语、多语言)对大型语言模型进行评估。我们引入了两个新颖的任务,包括 PolyFiQA-Easy 和 PolyFiQA-Expert,这是首批要求模型对混合语言输入进行复杂推理的多语言金融基准测试;以及 EnglishOCR 和 SpanishOCR,这是首批嵌入光学字符识别(OCR)技术的金融问答任务,挑战模型从图文并茂的金融文档中提取信息并进行推理。此外,我们提出了一种动态的、具备难度感知能力的选择机制,并精心策划了一个紧凑且平衡的基准测试集,而非简单聚合现有数据集。对 22 个最先进模型的广泛评估表明,即便是最强大的模型,尽管具备通用的多模态和多语言能力,但在面对金融领域中复杂的跨语言和多模态任务时,也显得力不从心。MultiFinBen 已公开发布,旨在推动金融研究和应用领域实现透明、可复现且包容性的进展。Huggingface链接:2506.14028,论文链接:2506.14028

研究背景和目的

研究背景

近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著进展,并逐渐应用于金融领域。然而,现有的金融NLP基准测试集大多局限于单语言和单模态场景,过度依赖简单任务,无法充分反映现实世界金融任务的复杂性。这些基准测试集通常只涵盖文本模态,语言种类单一,任务类型简单,难以全面评估大型语言模型在真实金融环境中的表现。

具体而言,现有的金融基准测试集存在以下局限性:

  1. 单语言和单模态限制:大多数基准测试集仅支持单一语言(如英语或中文)和单一模态(如文本),无法评估模型在多语言和多模态环境下的表现。
  2. 任务简单化:现有基准测试集的任务设计往往过于简单,无法充分挑战模型的能力,导致评估结果缺乏区分度。
  3. 缺乏难度感知:现有基准测试集在数据集选择和任务设计上缺乏难度感知机制,导致评估结果无法准确反映模型在不同难度任务上的表现。
研究目的

为了克服现有金融基准测试集的局限性,本研究旨在开发一个多语言、多模态且具备难度感知能力的金融基准测试集——MultiFinBen。MultiFinBen旨在全面评估大型语言模型在真实金融环境中的表现,涵盖文本、视觉和音频三种模态,支持单语言、双语和多语言环境,并包含不同难度的任务类型。通过MultiFinBen,研究人员可以更准确地了解模型在金融领域的优势和不足,为模型的进一步改进提供指导。

研究方法

数据集构建

MultiFinBen的数据集构建过程包括以下几个关键步骤:

  1. 数据收集:从多个来源收集金融领域的文本、视觉和音频数据。文本数据包括金融报告、新闻、财报等;视觉数据包括图表、表格和PDF文档的图像;音频数据包括财报电话会议录音等。
  2. 任务设计:设计了七大类任务,包括信息抽取(IE)、文本分类(TA)、问答(QA)、文本生成(TG)、风险管理(RM)、金融预测(FO)和决策制定(DM)。针对每种任务类型,设计了不同难度的子任务,如简单(Easy)、中等(Medium)和困难(Hard)。
  3. 多语言支持:涵盖了英语、中文、日语、西班牙语和希腊语五种语言,支持单语言、双语和多语言环境下的评估。
  4. 多模态融合:在视觉模态中,引入了光学字符识别(OCR)任务,要求模型从扫描的金融PDF文件中提取结构化信息;在音频模态中,引入了自动语音识别(ASR)和语音摘要任务。
难度感知选择机制

为了确保基准测试集的挑战性和平衡性,本研究提出了一种动态的、具备难度感知能力的选择机制。具体步骤如下:

  1. 模型性能评估:使用两个参考模型(GPT-4o和LLaMA3.1-70B-Instruct)对所有候选数据集进行评估,计算平均标准化性能得分。
  2. 难度分级:根据平均得分将数据集分为简单(>60分)、中等(20-60分)和困难(<20分)三个等级。
  3. 数据集选择:在每个模态-语言-任务配置下,从每个难度等级中选择一个数据集,确保基准测试集的紧凑性和平衡性。
模型评估

本研究对22个最先进的大型语言模型进行了广泛评估,包括闭源模型(如GPT-4o)和开源模型(如Llama-4、Qwen-2.5-Omni等)。评估过程包括:

  1. 任务适配:将每个模型适配到MultiFinBen的各项任务中,确保模型能够处理不同模态和语言环境下的输入。
  2. 性能评估:使用ROUGE-1、准确率(Accuracy)、F1分数等指标评估模型在各项任务上的表现。
  3. 难度分析:分析模型在不同难度任务上的表现,揭示模型的优势和不足。

研究结果

模型性能概述

评估结果显示,即便是最先进的大型语言模型,在面对MultiFinBen中的复杂跨语言和多模态任务时,也表现出显著的局限性。具体而言:

  1. 总体表现:GPT-4o在MultiFinBen上的总体得分为50.67%,尽管其在多项任务上表现出色,但仍远未达到完美水平。其他模型的表现则更为参差不齐,多模态和多语言模型的表现普遍优于单模态和单语言模型。
  2. 模态差异:在文本任务上,专门的文本模型(如Llama-3.1-70B)表现优于多模态模型;但在视觉和音频任务上,多模态模型(如GPT-4o和Qwen-2.5-Omni-7B)则表现出显著优势。
  3. 语言差异:多语言模型在多语言任务上的表现显著优于单语言模型,尤其是在低资源语言(如希腊语)上,专门的多语言模型(如Plutus)表现出更高的准确率。
难度分析

难度感知选择机制揭示了模型在不同难度任务上的表现差异:

  1. 简单任务:模型在简单任务上的表现普遍较好,但仍有提升空间。例如,GPT-4o在简单任务上的得分为31.24%,而在困难任务上的得分则下降至6.63%。
  2. 中等和困难任务:模型在中等和困难任务上的表现显著下降,尤其是跨语言和多模态任务。这表明现有模型在处理复杂金融任务时仍存在显著不足。
新任务挑战

MultiFinBen中引入的两个新任务——PolyFiQA-Easy/Expert和OCR嵌入的金融问答任务(EnglishOCR和SpanishOCR)——对模型构成了显著挑战。评估结果显示,即便是最先进的模型在这些任务上的表现也远未达到预期水平,这进一步凸显了MultiFinBen在揭示模型局限性方面的价值。

研究局限

尽管MultiFinBen在评估大型语言模型在金融领域表现方面取得了显著进展,但仍存在以下局限性:

  1. 高质量开放数据集的有限性:金融领域缺乏真正开源的数据集,许多公开数据集包含模糊或限制性的许可条款,阻碍了数据的再分发和标准化基准测试。这限制了MultiFinBen的覆盖范围,可能无法充分代表现实世界金融任务的多样性。
  2. 评估指标的多样性:不同任务类型需要不同的评估指标,这增加了基准测试集设计的复杂性。虽然本研究使用了ROUGE-1、准确率等常用指标,但在某些任务上可能仍需更细粒度的评估方法。
  3. 模型多样性的限制:尽管本研究评估了22个最先进的模型,但仍可能存在未涵盖的模型类型或架构。此外,闭源模型的不可访问性也限制了评估的全面性。

未来研究方向

基于MultiFinBen的研究结果和局限性分析,未来的研究可以从以下几个方面展开:

  1. 扩展数据集覆盖范围:进一步收集和整理更多高质量、开源的金融数据集,尤其是覆盖更多语言和模态的数据集。这将有助于提高基准测试集的代表性和多样性。
  2. 改进评估指标:针对不同任务类型设计更细粒度的评估指标,以更准确地反映模型在各项任务上的表现。例如,在OCR任务中,可以引入字符识别准确率、布局恢复准确率等指标。
  3. 探索新模型架构:研究新的模型架构和训练方法,以提高模型在跨语言和多模态任务上的表现。例如,可以探索结合预训练语言模型和特定领域知识的混合模型架构。
  4. 加强模型可解释性研究:研究如何提高大型语言模型在金融领域的可解释性,以便更好地理解模型的决策过程和结果。这将有助于增强用户对模型的信任度,并促进模型在金融领域的实际应用。
  5. 推动社区合作与标准化:加强与学术界和工业界的合作,共同推动金融领域大型语言模型基准测试集的标准化和规范化。通过共享数据集、评估方法和最佳实践,促进整个领域的共同进步。

综上所述,MultiFinBen作为一个多语言、多模态且具备难度感知能力的金融基准测试集,为评估大型语言模型在金融领域的表现提供了全面而系统的框架。尽管存在某些局限性,但通过未来的研究和改进,有望推动金融领域大型语言模型的发展和应用。


网站公告

今日签到

点亮在社区的每一天
去签到