文章
智慧审计的七种武器之网络爬虫
智慧审计应用与创新(第五期)
在往期的【智慧审计】系列中,大家已经认识了机器人流程自动化(RPA)、自动语音识别(ASR)、文字识别(OCR),这些技术在提升银行内部审计效率,提高银行内部审计精准度中发挥了重要作用。今天,为大家介绍的智慧审计武器是——网络爬虫。
1. 形态
网络爬虫,是一种“自动化浏览网络”的程序,即按照一定的规则,模拟人工点击,自动地抓取互联网信息,比如网页、文档、图片、音频、视频等。简单来说,这种程序的运行可以实现自动的、高效的读取、收集网络数据。
随着互联网技术的发展和数据爆炸,网络爬虫技术为银行数据采集和信息整合应用提供了全新的技术路径。对银行而言,网络爬虫技术在网络舆情监测、竞争对手分析、行业垂直搜索等诸多领域已有深度应用,助力银行转型成为了解自身、了解客户、了解竞争对手、了解经营环境的“智慧银行”。
2. 招式
目前,银行内部审计部门主要依赖于自有数据进行分析,数据获取困难为银行的内部审计工作带来了诸多限制。以对公客户信贷信息真实性审查工作为例,企业信息主要来自于客户自己报送,以及行内累计交易历史。内部审计部门在材料真实性审查中,面临着企业客户的财务信息、非财务信息搜索整合困难,尤其是小微企业的财务信息难以核实,难以识别客户资料信息造假、客户经理粉饰客户信息等一系列问题。
爬虫技术,作为大数据前端的数据采集技术,可以很好地解决这一系列问题。利用网络爬虫技术,配合图像识别、语音识别、语义理解等大数据技术,可以实现外部海量高价值数据收集,包括政府公开数据、企业官网数据、社交数据等等。内部审计部门得以通过客户动态数据的获取,为客户建立全景画像,对客户进行全面视角的分析审查,并对客户实际业务及运行情况与报送材料进行一致性检查,协助评判材料的真实性,从而使得银行内部审计部门在审计范围、时效性、前瞻性等方面得到有效改善。
3. 实战
在对公客户信贷可疑贷款的年度内部审计中,内部审计部的老王负责对客户信息的真实性进行审核。老王需要针对客户的基本信息、经营状况、法人资信情况、关联关系等诸多方面进行全方位审核。具体而言,老王需要登录人民银行企业征信系统、人民银行个人征信系统、国家企业信用信息公示系统等多个外部系统,以及相关行内系统,逐一查询并下载客户信息进行交叉比对验证,这一过程相当耗费时间及精力,每年到这个时候,老王就会忙的焦头烂额。
为了提升内部审计效率,首席审计官引进了网络爬虫技术,利用爬虫技术可收集政府网站、企业官网、社交媒体网站等渠道中跟企业相关的信息,形成了外部数据集市,进一步将采集到的外部数据与银行内部数据系统进行对接整合,丰富客户信息维度,形成客户全景画像,可以协助内部审计部门进行客户信息审查,提高内部审计效率与内部审计发现的完整性。
在某银行的概念验证 (POC,Proof of Concept)案例中,德勤风险咨询针对该行2018年近2万个对公贷款客户,通过网络爬虫技术,获取了包括工商、司法、舆情、征信、税务在内的17类专项数据,并将之与行内客户历史交易、业务办理信息等内部数据系统打通整合,最终形成了客户关联关系、资金往来关系、业务办理信息、外部风险信息4大维度的客户全景画像。德勤风险咨询将这2万个对公客户的信贷申请资料与其全景画像执行关联分析、交叉检验等验证,最终发现了36个客户涉及虚报财务信息、刻意隐瞒负面信息等虚假行为。借助网络爬虫技术,不仅在数据获取上提高了内部审计的效率,更在内部审计发现上提高了完整性。
4. 奥义
基于爬虫的智慧审计应用,实现了对“大数据”的采集和转换,通过对多来源数据的智能化重组,解决信息不对称的难题,拓展了内部审计人员的视野,为内部审计人员全面深入地了解客户和识别关联风险提供了有力武器,促使内部审计视角从“识别单业务条线风险”向“全面识别关联风险”转变,提高了内部审计的系统性和全面性,更推动内部审计价值由“静态时点评价”向“动态趋势评价和事前预防”转变。
结语
爬虫技术为银行内部审计部门带来了丰富的异构多源数据,为银行智慧审计应用打下了坚实的基础。银行内部审计借助网络爬虫技术,不仅节约了内部审计资源,提高了内部审计发现的完整性,提升了内部审计质量,更促进了内部审计创新。随着大数据理念深入人心,作为大数据前端的数据采集技术,网络爬虫技术必将成为银行内部审计部门有效降低经济损失、提高决策智能化水平、全面提升管理效益的重要技术手段。