解读 | 金融长上下文基准测试FailSafeQA：解锁金融领域LLM真实的审慎性和容错性

近年来，大型语言模型（LLMs）在金融领域的应用如火如荼，从风险分析到客户服务，它们正逐步改变行业的游戏规则。然而，这些模型是否真的足够“靠谱”？面对复杂的金融数据和多变的用户输入，它们还能保持精准和

魔搭ModelScope社区

195人浏览 · 2025-03-11 10:19:19

魔搭ModelScope社区 · 2025-03-11 10:19:19 发布

近年来，大型语言模型（LLMs）在金融领域的应用如火如荼，从风险分析到客户服务，它们正逐步改变行业的游戏规则。然而，这些模型是否真的足够“靠谱”？面对复杂的金融数据和多变的用户输入，它们还能保持精准和稳健吗？

近日，由一家在美国加州于 2023 年成立的人工智能公司 Writer Inc 的研究团队打造的 FailSafeQA 横空出世，为我们提供了一个全新的视角，去审视这些智能工具的真实实力。

今天，我们以第三方观察者的身份，带你深入了解这项突破性的金融长上下文基准测试。它不仅挑战了24个主流模型的极限，还揭示了它们在“用户友好性”和“防幻觉”之间的微妙平衡。准备好了吗？让我们一探究竟！

Expect the Unexpected: FailSafe Long Context QA for Finance https://arxiv.org/pdf/2502.06329 https://modelscope.cn/papers/114717

🚀 什么是 FailSafeQA？一窥金融领域的“硬核”测试

FailSafeQA 是一项专为金融场景设计的长上下文问答基准测试，由 Kiran Kamble、Melisa Russak 等专家领衔开发。它聚焦于两大核心场景：查询失败（Query Failure）和上下文失败（Context Failure），通过六种不同的输入变体，全面检验 LLM 在真实世界中的表现。

查询失败模拟用户输入中的拼写错误、不完整查询和非专业术语，考验模型的“容错”能力。
上下文失败通过上传劣质OCR文档、无关文件甚至空文件，测试模型是否会“胡编乱造”。

研究团队基于美国上市公司 10-K 年报（长达25k tokens）构建了数据集，并利用 Meta Llama 3.1 405B 等先进模型生成测试样本。最终，他们用 Qwen2.5-72B-Instruct 作为“裁判”，为24个模型打分，评估其稳健性（Robustness）、上下文依赖性（Context Grounding）和合规性（Compliance）。

🔥 亮点揭秘：模型表现大比拼

FailSafeQA 的测试结果让人眼前一亮，也让人深思。以下是几个关键发现：

Palmyra-Fin-128k-Instruct 以 0.81 的合规性得分拔得头筹。它在提供准确回答和避免幻觉之间取得了最佳平衡，但仍有 17% 的测试案例未能保持稳健预测。
OpenAI o3-mini 是稳健性冠军，得分高达 0.90。然而，它在 41% 的案例中出现了幻觉，显示出“过于自信”的短板。
上下文依赖性是所有模型的普遍痛点。特别在缺失上下文时，大多数模型宁愿“胡说八道”也不愿拒绝回答，只有少数如 Qwen 和 Palmyra-Fin 能稳住阵脚。

图1：FailSafeQA 的评估框架，展示了查询失败和上下文失败的六种测试场景，考验模型的稳健性和防幻觉能力。

🌟 为何 FailSafeQA 值得关注？

这项基准测试不仅是一次技术较量，更是为金融行业敲响了警钟。随着 LLM 被广泛用于自动化决策，模型的可靠性变得至关重要。FailSafeQA 的独特之处在于：

真实性它模拟了用户可能犯的各种“失误”，如拼写错误或上传错误文件，贴近实际应用场景。
透明性数据集和评估标准已公开，任何人都可以在 HuggingFace或者魔搭社区上获取，助力研究复现和改进。
前瞻性通过引入“合规性”指标，它为未来开发更安全的金融 LLM 提供了方向。

图2：模型在稳健性和合规性上的表现对比，Palmyra-Fin-128k-Instruct 以 0.80 的上下文依赖性得分领跑。

🚀 下一步：金融 LLM 的进化之路

FailSafeQA 的结论发人深省：即使是顶尖模型，在长上下文金融任务中仍有显著的改进空间。研究指出，文本生成任务（如博客撰写）比简单问答更容易引发幻觉，或许未来的解决之道在于“先提取信息，再生成内容”的分步策略。

图3：模型的合规性和稳健性在不同查询类型（问答（QA）和文本生成（TG））上的对比，（左）在所有模型中，鲁棒性的下降在文本生成（TG）中比在问答（QA）任务中更为突出。（右）类似的说法也适用于上下文依赖性 —— 当模型被要求生成文本（例如，博客文章）时，它更有可能忽略相关信息的缺乏并捏造细节。对于所有模型，基于错误的文档（不相关的上下文）拒绝回答比处理空上下文（例如，由于文档上传失败）更容易。

对于金融从业者和技术爱好者来说，这项工作不仅揭示了 LLM 的潜力与局限，还为构建更值得信赖的智能工具指明了方向。你是否也期待看到更“靠谱”的金融 AI？不妨去魔搭社区或者 HuggingFace 下载数据集，自己动手试试看！

https://modelscope.cn/datasets/LLM-Research/FailSafeQA