金融行业 · 大模型挑战赛｜用大模型理解金融市场

探索金融领域大模型应用 —— 2024金融行业·大模型挑战赛详情

魔搭ModelScope社区

439人浏览 · 2024-12-04 13:00:15

魔搭ModelScope社区 · 2024-12-04 13:00:15 发布

近年来，大型语言模型（LLM）在金融领域的应用取得显著进展。继「2023 金融行业·大模型挑战赛」之后，我们将举办「2024 金融行业 · 大模型挑战赛」，以期进一步推进大模型在金融行业的广泛应用。　

为确保比赛内容紧贴实际应用，我们整合了所有公开的金融数据，打造了符合金融场景需求的多轮问答评测赛题——金融多轮问答数据集。比赛将提供完整的基础数据表供选手使用。　

参赛选手需采用 GLM-4 系列模型 API 进行比赛。选手可运用多种技术手段，如代理方法（agentic）、文本到API（text2api）、文本到SQL（text2sql）和信息检索等，以完成赛题。　

赛题设有中文和英文两个测试集，选手可根据个人偏好选择其一进行优化和提升。　

主办单位：清华大学基础模型研究中心　

支持单位：智谱、博时基金、安硕信息、恒生聚源　

社区支持：魔搭社区，WaytoAGI，ZLead硅谷委员会，Huggingface　

模型支持：BigModel.cn

数据支持：恒生聚源、安硕信息、博时基金　

赛题内容

参赛选手需利用GLM-4模型API以及比赛提供的金融数据，开发一个能够处理多轮问答的系统，旨在回答用户提出的金融相关问题。　

本赛题涉及多轮问答，并包含中文及英文两种语言。　

根据难度和复杂度，赛题分为初级、中级、高级三个等级，描述如下：　

初级：数据基本查询（30分）　

通过SQL或API等方式可查询结果，如：「某公司（或某股票代码）2022年11月2日的涨跌幅为多少？」　

中级：数据统计分析查询（40分）　

在初级阶段的基础上，使用基础数据完成金融数据的统计分析、关联指标查询、公式计算等，如：「MACD即将金叉，中小板，近半年涨停次数超过10次的股票有多少家？分别是谁？」　

高级：复杂问题（30分）　

股价回测、财务分析等，如：「每年的4月叠加上市公司年报和一季报。理论上新闻频次会达到了一年最高。帮我验证下，2021年在A股有多少比例的上市公司符合这个假设?」　

数据结构

本次赛题数据主要分为两大类：结构化数据和非结构化数据。　

结构化数据包括以下几部分：　

A股上市公司数据：涵盖500家A股公司（2019-2021年），包括公司基本资料（如LC_StockArchives），公司名称变更（LC_NameChange），以及公司业务信息（LC_Business）。
股东及股权信息：包括股东类型分类（LC_SHTypeClassifi）、股东名单（LC_MainSHListNew）、公司实际控制人（LC_ActualController）等信息，涉及股东持股统计、股权变动、股权冻结与质押等内容。
公司财务与经营状况：包括资产负债表（LC_BalanceSheetAll）、利润表（LC_IncomeStatementAll）、现金流量表（LC_CashFlowStatementAll）、主营业务构成（LC_MainOperIncome）以及审计意见（LC_AuditOpinion）。
行业及概念板块：包含行业分类（LC_ExgIndustry）、行业估值指标（LC_IndustryValuation）、行业财务指标（LC_IndFinIndicators）及概念板块信息（LC_COConcept）。
股票市场数据：如A股交易数据（日行情表QT_DailyQuote）、股票技术指标（CS_TurnoverVolTecIndex）及停牌复牌信息（LC_SuspendResumption）。
基金数据：涉及管理人前10家，每家50只基金（2019-2021年），包括基金概况（MF_FundArchives）、基金管理人信息（MF_InvestAdvisorOutline）及基金分红（MF_Dividend）。
港股和美股数据：涵盖20家港股公司及20家美股公司（2019-2021年），包括公司概况、员工数量变动、日行情等信息。
指数数据：包含沪深三百、中证500、中证1000、创业板指数、上证指数的基本情况（LC_IndexBasicInfo）及其成份（LC_IndexComponent）。
舆情数据：针对500家A股公司（2019-2021年）的舆情信息（PS_NewsSecurity），以及相关事件体系指引（PS_EventStru）。