文章
智慧审计的七种武器之自然语言处理 (NLP)
智慧审计应用与创新(第六期)
内部审计涉及众多文本资料,包括相对方信息、相关法律法规等,在传统审查相关业务的合法、合规性的过程中,需要花费大量时间搜集、查阅和整理文本资料。智慧审计则利用自然语言处理技术使繁琐的文本处理过程智能化,使计算机自动完成文本资料处理并提示潜在风险,实现更高效、更智能、更标准化的内部审计。
1. 形态
语言是表达人的想法以及人与人之间交流的工具,自然语言处理(Natural Language Processing,NLP)使计算机拥有处理人类语言的能力,让计算机能够理解并使用人类的语言。自然语言处理的应用包罗万象:“机器翻译”让世界变成真正意义上的地球村,没有语言的屏障;“情感分析”能够判断出一段文字所表达观点和态度的正负面性;“智能问答”能够用于智能语音客服,让机器人回答客户提出的各种问题;“信息提取”能提取文本中包含的关键信息并标准化;“文本分类”可以将文档资料进行归类整理;“语言生成”发挥计算机理解人类语言的能力,自动生成文章摘要。德勤端脑智能自然语言处理模块就是基于此智能技术开发的。银行业内审项目在配备端脑后,可以分析大量的文本并提取关键信息、实现系统化检索风险点、进一步地实现高效智慧审计。
2. 招式
随着银行业的迅猛发展,银行积累了海量结构化和非结构化数据,这为内审工作带来了巨大的挑战,尤其对于需要人工查阅的非结构化数据,例如合同、内部公文制度以及人行和银监会发文等。在海量、复杂非结构数据背景下,传统的审查方式意味着大量的人工查阅工作,效率低下。同时,传统内审形式还存在一定的局限性,一是存在盲区,例如人工审查过程中存在知识局限及漏判误判等人为差错,二是人工无法做到对全量信息进行查阅。
针对传统审查方式的短板,德勤智慧审计利用端脑智能自然语言处理模块提出了解决方案。应用此模块后的智慧审计可以处理海量的非结构文本数据,提高了处理多数据源的审查分析能力,端脑智能自然语言处理模块在内审过程中,可以替代人工做繁杂的文本阅读和重要信息提取等工作。由计算机替代人工后,可以实现对相关材料的全量核查。更进一步的,端脑智能自然语言处理模块借助强大的机器学习、深度学习算法通过模型训练,可以实现风险点的自动识别。自然语言处理技术在银行业智慧审计中具有深远意义,端脑智能自然语言处理模块将发挥极大的价值。
3.实战
在某银行的内审实践中,首先利用RPA监控监管机构发文,RPA技术定期检索并采集各监管机构的最新发文,例如中国人民银行办公厅发文《关于加强小额支付系统集中代收付业务管理有关事项的通知》、《中国人民银行关于加强支付结算管理防范电信网络新型违法犯罪有关事项的通知》等。RPA将节省人工检索耗时,同时可以避免漏检、更新不及时等现象。
接下来NLP归类整理文本资料、挖掘审查要点,NLP对于最新发文应用自动摘要算法拆分文本、提取核心内容,形成包含标题及核心内容简练报告,实现文档归类。这一过程为审阅人员做了初步整理工作,简化了大量而繁复的阅读过程,可以让审阅人员快速抓住重点,工作效率得到显著提高。我们以代收付业务管理发文为例,这一过程将首先利用NLP得到发文第一条中主要内容:
经过以上步骤,已经实现自动化更新发文、自动化归纳审核要点,再经过人工干预整理出审查要点,为进一步NLP智能判别做准备。最后,在NLP智能判别中,我们以代收付业务管理发文第一条规定为例,目标是审查小额支付系统的集中代收付业务是否符合监管要求(仅用于公用事业类和公益类机构),具体过程及结果如下:
在上述NLP智能判别实例中,第一步为内部信息提取,利用NLP可以自动批量的提取合同文档中的所需文本内容,得到合同相对方基本信息,包括名称和协议合作内容;第二步为外部信息提取,利用爬虫及NLP技术得到结构化文档,包括相对方对应的工商许可经营范围;第三步为利用语言模型算法来对上两步得到的初步数据进行模型判断,得到所审查合同对应条款的签订是否符合相关规定,抓取出高风险合同。
结语
融入了自然语言处理的智慧审计实现了内审过程的系统化、扩大了内审的范围,同时也极大地提高了内审效率。 案例中涉及包括大量合同、法律法规、相对方信息等非结构化文本材料,不同于传统内审中的抽样,利用自然语言处理技术可以自动化处理非结构文本信息,系统化、自动化地检索整理审查要点,使内审人员从繁重的大量阅读、审阅工作中解放出来。同时,利用语言模型可以识别出不符合目标条款、发文的高风险案例,为内审人员进行初步筛查,使他们可以集中关注高风险案例并进行深入跟踪,实现高效率的内审工作。端脑智能自然语言处理模块技术,为银行业在多数据源结构的内审工作上提供了高度支持。