文章

数据治理中的文本解析利器

端脑智能引擎

将“端脑智能引擎”应用于银行业数据治理,在数据标准制定过程实现基础数据项和指标数据项自动提取、自动识别分布、标准库自动匹配、落标效果自动检核,大幅提高数据标准编制和标准应用的效率及准确性。

简介

“端脑智能引擎”是由德勤中国风险咨询团队自主研发的文本挖掘引擎,基于自然语言处理技术和神经网络模型,通过对上万份文档的训练和学习,“端脑智能引擎”已经具备了语义分类、语义匹配、内容检索、文本提取等多项技术能力,适用于文档分类、内部审计、合同审核、银行业务单据处理、银行业数据标准制定等诸多场景。

在数据治理工作中,数据标准编制的很大一部分工作为信息项文本的提取、语义分析与语义匹配。在银行业数据治理的实践中,我们运用“端脑智能引擎”,实现了智能化的数据标准编制、比对和标准应用质量检查。
 

应用场景

数据治理中数据标准编制以往工作流程为:

  1. 从各业务系统和报表中提取相应基础数据项和指标数据项;
  2. 整理相同含义基础数据项和指标数据项在不同业务系统和报表中的分布;
  3. 将基础数据项和指标数据项与已有数据标准库进行匹配制定数据标准;
  4. 检查应用系统和数据仓库的基础数据标准和指标数据标准应用情况。
     
(点击看大图)

银行业数据标准制定通常涉及众多的报表和业务系统,由于报表和业务系统数据字典中混杂有系统字段需要进行分离和整理,且不同报表和业务系统数据字典中相同含义基础数据项或指标数据项文字表述不一致等原因,导致由人工开展基础数据项和指标数据项的提取、比对、匹配、标准应用和质量检查等工作耗时费力,且不同整理人员业务理解水平不一,容易造成前后不一致等问题。

 

应用技术

“端脑智能引擎”由人工智能驱动,结合机器学习算法、文本分析和自然语言处理技术以及专家规则,深入理解数据项含义,精准提取需要的基础数据项和指标数据项、识别同义数据项的分布,自动匹配已有数据标准库,并对标准落标情况进行检核。

1)信息提取
可实现对银行业海量并且复杂的报表或业务系统中数据项进行快速、精确的分拆、解读、分析、提取出关键的基础数据项和指标数据项,并输出到标准化的模板,帮助数据治理工作者从繁重的数据项整理工作中解放出来。

2)语义匹配
基于预定义和训练学习的规则或匹配规范,自动化匹配银行业同义基础数据项和指标数据项、识别其中的不规范表述、将基础数据项和指标数据项与已有标准库匹配。
 

应用效果

基于某银行数据标准制定的测试结果,“端脑智能引擎”通过应用自然语言、深度学习技术和200多项业务规则对基础数据项和指标数据项匹配准确率可达95%以上,对12000+基础数据项和指标数据项的提取、语义匹配、标准应用质量检核可在30分钟内完成,大幅提高了数据标准制定工作的效率和效果。

此内容是否提供了您需要的资讯?