
作为工业领域的关键生产要素,结构化数据的深度挖掘与高效处理能力,对于驱动产业提质增效及加速科研产出具有重要意义。结构化数据大模型为这类数据分析处理带来重大变革,然而,面对涵盖常见半结构化数据及金融、交通和医疗等垂直领域复杂时序数据的广义结构化场景,当前大模型在结构化数据理解与处理、数值推理精度及实时交互稳定性等方面的实际表现尚不明晰,亟须建立系统性的评测体系以评估其能力边界与落地潜力。
中国移动构建了“弈衡”结构化数据大模型评测体系,该体系覆盖多场景、融合多维度,全面考察大模型在基础数据理解与重点行业应用预测中的综合能力,从功能性、准确性、可靠性、交互性四个维度对6款结构化数据大模型展开系统性评估。该评测体系为提升结构化数据处理能力与行业适配性提供了重要参考,推动结构化大模型在工业领域的深度落地。
结构化数据大模型概述
结构化数据是指按照固定模式组织和存储的数据,具有明确的、预定义的数据模型,如关系型数据库表数据等;半结构化数据是指介于结构化数据和非结构化数据之间,具有一定的结构化特征,如XML、JSON、HTML文档等,广义的结构化数据包括结构化和半结构化数据,结构化数据大模型是指输入或输出为广义结构化数据,并可对其进行分析处理的大模型。
综合考量底层技术通用性与上层业务价值性,并结合需求适配性、技术成熟度及数据集构建复杂性,可将结构化数据大模型的需求及应用场景划分为通用基础任务场景和行业应用场景,通用基础场景聚焦于多源异构数据的标准化解析,包括对XML、JSON和表格文件的内容理解、提取与处理等;行业应用场景则聚焦于垂直领域的深层价值挖掘,包括医疗、金融、交通、气象等领域的时序预测和风险评估等任务。
为科学衡量大模型在上述场景下的实际能力,推动技术迭代与产业落地,构建系统的评测体系至关重要。有效的评测不仅能客观评估大模型在处理结构化数据时的性能边界,还能为模型选型和技术优化提供关键依据,是从技术探索走向规模应用的必要桥梁。
然而,当前结构化数据大模型的评测体系在场景、要素及维度层面仍面临显著挑战:场景上,多局限于通用基础解析,缺乏对垂直行业高价值场景的覆盖;要素上,依赖公开数据集,指标单一,全流程任务覆盖不足且专用评测工具匮乏;维度上,侧重于精度与功能,对可靠性和交互性等生产环境关键维度关注不足,相关指标也尚未被系统纳入统一框架。因此,亟需构建一套综合评测体系,以推动结构化数据大模型从探索走向落地。
评测体系研究现状
经调研结构化数据大模型评测现状发现,目前该技术仍处于发展阶段,尚未大规模应用,相关领域的评测体系研究相对较少。现阶段研究中具有代表性的评测体系主要包括:
(1)复旦大学2024年提出的StrucText-Eval,其覆盖树、LaTeX、Org、Markdown、XML、YAML、JSON、表格8种结构化语言,构建了格式错误检测、结构提取、内容提取、数据统计、条件筛选、树高度计算、节点深度分析、路径解析8类评测任务;
(2)北京航空航天大学2024年提出的TableBench,聚焦于表格数据处理场景,着重考察大模型在事实核查、数值推理、数据分析和可视化四个方面的能力;
(3)上海交通大学2025年提出的STI-Bench,考察大模型对时空结构化数据的理解能力,包括静态空间理解(尺寸度量、空间关系和3D定位)和动态时序理解(位移/路径长度计算、速度/加速度分析、朝向变化、轨迹描述和姿态估计)。
当前评测体系主要侧重于探索大模型在特定结构化任务上的算法能力边界,而在产业应用层面,受限于技术成熟度,针对复杂业务场景下大模型综合表现的评测体系研究较少,且关于评测任务、评测指标、评测数据等要素的定义与范围仍未形成统一共识。
中国移动“弈衡”结构化数据大模型评测体系
针对以上问题和挑战,中国移动构建了“弈衡”结构化数据大模型评测体系,该评测体系在结构框架上沿用“2-4-6”分层架构,针对结构化数据特点,选取基础和应用2类任务作为评测场景,确定评测方式、评测指标、评测数据、评测工具4项评测要素,从功能性、准确性、可靠性、安全性、交互性、应用性6大维度制定针对性评估指标,全面考察大模型在结构化数据理解、处理、行业风险评估及时序预测等方面的综合能力,如图1所示。
图1 中国移动“弈衡”结构化数据大模型评测体系
基于上述体系架构,对评测场景、评测要素及评测维度三个层级的具体内容进行详细阐述。
(一)评测场景
针对基础和应用场景,分别选取具有代表性的子任务开展评测,各任务描述如表1所示。
表1 评测场景及描述
(二)评测要素
评测方式:采用客观评测为主、主观评价为辅的组合方式开展评定,形成全方位的能力评估。
评测指标:通过准确率、预测误差、输出一致性及响应时延等量化指标,系统性衡量大模型对结构化数据处理能力。
评测数据:通过基于开源工具构建全新评测数据、改写开源数据集、从官方渠道获取实时数据等方式,构造多类型评测数据。
评测工具:基于“弈衡”大模型评测平台开展评测,该平台具备端到端全流程自动化执行能力,并引入基于大模型的智能化结果评判技术,大幅提升了评测效率。
(三)评测维度
(1)功能性:考察大模型对任务的覆盖度及对输入规格的支持能力。重点关注任务丰富度与完成度,以及大模型对输入文本长度、文件大小及文件格式种类的支持范围。
(2)准确性:衡量大模型在不同任务场景下输出结果的精准程度。基础与分类任务以回答准确率作为核心指标,预测应用任务则引入平均绝对百分比误差(MAPE)、归一化均方误差(NMSE)及方向准确率(DA)等指标进行综合衡量。
(3)可靠性:评估大模型表现的稳定性。基础与分类任务通过多次输出结果的一致率判定,预测任务则依据多次预测结果的相对标准差进行考量。
(4)交互性:反映大模型在实际处理过程中的实时响应能力。主要以大模型的平均响应时延作为评测指标。
(5)安全性:评估大模型在使用过程中的风险防控能力。重点考察模型输出是否存在歧视偏见,是否满足合法合规要求,以及在隐私保护和内容毒性等方面的具体表现。
(6)应用性:衡量大模型的产业落地适配能力。主要涵盖部署能力、支撑能力、运维能力以及使用效果的综合评价。
评测实践及洞察分析
考虑大模型在重点应用场景中的适配性,以及在权威榜单与学术论文中的综合排名与影响力,基于“弈衡”结构化数据大模型评测体系,对6款主流大模型的结构化数据处理能力开展评测。由于大模型在处理复杂结构化数据及垂直行业预测这一特定领域仍处于发展阶段,尚未形成完全成熟的商用形态。因此,本次评测重点关注各大模型对结构化数据处理能力,故主要从功能性、准确性、可靠性和交互性四个维度进行量化考察,应用性和安全性目标未列入本次评测范围。
整体上看,本次评测中的主流大模型综合能力均稳定在及格线以上,如图5所示,国外大模型综合能力整体上优于国内大模型,但差距不显著;大部分主流大模型的基础任务处理能力优于应用任务,部分大模型对两类任务的处理能力基本一致,说明当前主流大模型基本能够满足日常基础任务的使用需求,但在应对实际行业场景的深度应用、大规模数据处理及复杂时序预测等挑战时,仍面临显著瓶颈,亟需进一步优化提升。
图5 6款主流大模型结构化数据处理综合评估得分
从各维度的表现上看,主流大模型在不同能力域上呈现出显著的差异化特征:
(1)功能性方面,主流大模型展现了较强的泛化能力,可支持所有评测任务且任务完成度较高,但在长文本、大文件及多格式支持等能力上均有待提升,仅个别大模型能处理最大百MB级文件和近百万字符的输入,能力较弱的大模型仅可处理KB级文件和1万字符左右。
(2)准确性方面,主流大模型对于基础任务处理能力优于应用任务,特别是在JSON文件的理解与处理方面表现出显著优势,各大模型准确率均达到80%以上,部分优秀大模型甚至达100%,如图2所示;在应用任务中,主流大模型表现出显著的场景差异性:在股票/汇率、疾病人数预测等任务上表现尚可,但在气象多维预测、交通流量预测等高复杂度任务中表现乏力,部分大模型因输出异常值严重影响了整体准确率,如图3所示。
图2 通用大模型基础任务准确性评测结果
图3 通用大模型应用任务准确性评测结果
(3)可靠性方面,主流大模型整体表现良好,平均一致率约86%,在4个评测维度中得分最高,部分优秀大模型一致率超过90%;应用任务的一致性评分高于基础任务。
(4)交互性方面,主流大模型在基础任务的响应时延明显低于应用任务,不同大模型的表现呈现两极分化特征,个别交互性能优异的大模型,在各项子任务中的平均响应时延可稳定控制在20秒以内,而部分大模型受限于参数量级与思维链推理耗时,响应时长可达1分钟以上。
未来展望
伴随大模型对结构化数据处理能力的进一步升级,评测体系也需同步迭代。一方面,丰富评测场景与数据维度,拓展垂直行业覆盖范围,纳入新的应用领域场景,增加真实场景数据,提升评测的真实性与挑战性。另一方面,优化评测维度与指标体系,拓展可解释性、安全性和应用性等关键评测维度,构建兼顾误差精度与实际业务价值的综合指标,提升评测的粒度与全面性。最后,通过推动评测体系标准化共建,促进结构化数据大模型技术迭代与应用落地。
为进一步深度赋能垂直行业,结构化数据大模型需重点应对数据形态复杂化与业务逻辑多维化的双重挑战。一方面,针对基础解析任务,大模型需突破现有输入窗口与推理深度的瓶颈,提升对超大规模、多层级嵌套及高复杂度JSON、XML和表格文件的全量理解能力;另一方面,针对交通流量、气象多维度等复杂时序预测任务,需进一步融合图结构、知识图谱与多源信息,推动大模型从单维度、单变量分析转向多维度、多因素的系统建模,实现对复杂动态场景的多变量联合建模与深层价值挖掘,才能真正赋能高价值行业场景。
