文章

大数据时代“算法风险”的思考

数据“暗藏杀机” ?你注意到了吗

得益于近些年来大计算、大数据技术的进步,企业不但在计算能力上有了质的飞跃,对数据价值的认识也逐步提高,这就为算法的广泛应用提供了坚实的基础。

自20世纪英国数学家图灵提出一种假想的计算机的抽象模型,算法开始从一般的计算程序逐渐演变为高级的自动学习和推理程序,并最终形成与人类智能相似并做出反应的智能机器。在演变过程中,算法吸收的数据和知识均来源于人类的知识与经验。

借助各类形形色色的算法,我们能够发掘数据中的关联关系,寻找客户特征,预测未来走势,为公司营销、管理、运营提供各类帮助,甚至是决策依据。

随着算法的深度应用,依赖算法的潜在风险也逐渐引起公众和业内关注,如大数据“杀熟”现象、推荐算法易加强低俗内容的扩散,推送群体偏差造成的客户体验下降等。就目前而言,由人类创造的人工智能,还摆脱不了人为因素,虽然学习了知识,却无法摒弃认知偏见。

 

算法风险三大特点

与传统风险不同,算法风险存在隐藏的“偏见”、缺乏可验证性及复杂的解决方案三大特点。

与传统风险的区别:

算法风险与传统风险的区别

➤ 隐藏的“偏见”

算法可能有隐藏的偏见,不是来自人为的任何意图,而是来自于提供的数据本身。这些偏差可能不会作为一个明确的规则出现,而是被考虑到成千上万个因素之间的微妙交互中。

企业中常见的误解是把大数据看作“大量的数据”,简单认为数据越多预测的结果就会越精确,但事实是:数据量的庞大并不意味着数据的全面与完善。

算法训练数据最关键的是数据的“全面性”。何谓数据的“全面性”?即每一条信息都涵盖了所有属性。例如,在预测用户行为时,一条描述用户数据的信息中须包含用户ID、用户姓名、性别、年龄、职业等,数据属性愈加完整,机器获取的信息就越多,距离商业目的就越接近。

此外,数据的“正确性”也很重要。数据的“正确性”不仅局限于数据不为空值或不为负值等简单规则,还需要基于一定的数据分析,发现数据的异常值。

例如,一家便利店平均每月用户访问4次,但是在本月发现某位用户访问30次,那么,30次的访问频次对于用户而言是否是一个异常值?包含或者剔除是否影响用户行为算法逻辑?是否对于模型训练出来的结果会有偏差性?是否符合算法训练的目的?这些均需要人为的判断,所以训练的数据仍不能保证不带任何人为决定因素。

换而言之,算法模仿人类大脑的学习方式,而不是客观辩证的分析问题,因此由算法得出的结果也会带有人为偏见,从而影响公司决策。
 

➤ 缺乏可验证性

与传统的基于显示逻辑规则的系统不同,算法判断的是统计学上的真理,而不是真实的事实,所以,企业难以甚至无法证明算法结果的正确性。

部分算法是个黒匣子,按照本身训练的逻辑对数据进行归类分析,但是得出的结果往往难以人为解释,即算法决断一个值是否正确,但是不能解释这个值为什么正确。例如,大家熟知的“啤酒+尿布”的故事。沃尔玛超市管理人员在分析其销售数据时,发现“啤酒”与“尿布”这两件商品经常出现在同一个购物篮中。数据描述事物的现象,但是并未说明现象背后的原因,还需人为挖掘现象的本质,分析客户群体,验证是否符合业务逻辑。

当算法告诉我们一个结果,很可能需要花大量时间研究现象背后的原因,并且事实证明,很多时候,算法决断的结果很难验证,也难解释结果原因。
 

➤ 复杂的解决方案

当算法出现错误时,在短时间内造成巨大损失,而错误诊断和纠正错误的解决方案可能是难以想象的复杂。

 国外某公司通过模拟交易数据,形成新的交易算法,但由于技术上的缺陷,导致数百万个错误交易,使得一个投资公司在45分钟内损失4.55亿美元;某公司搜索算法系统存在“算法诽谤”,不正确地关联人或群体,影响企业的精准投放广告业务等,因算法错误造成损失的案例不胜枚举。

当算法发生错误时,除了带来风险及损失这一困境,能否在短期内找到解决方案仍是难题。算法本身的复杂性决定了解决方案的复杂性:算法越复杂,意味着需要更多的人力、时间和成本研究错误算法的解决方案。

 

德勤算法风险管理框架

➤ 算法风险带来的影响

目前,国内对算法风险的认知刚刚处于起步阶段,远远落后于全球算法的应用程度。伴随国外多年以来的算法发展,德勤全球已具备丰富的算法风险管理经验。基于诸多企业的服务实践,德勤发现,算法风险的影响是多方面的,不仅在运营层面,也会在企业声誉、监管处罚、战略执行等诸多方面带来不利影响。德勤认为,算法的不当应用将给企业来带如下风险:

算法风险带来的影响:

算法风险影响图

声誉风险:算法的不当使用,会大幅增加企业声誉的风险敞口。如果算法的运作方式与企业或社会的价值观不一致,或者算法被用来误导消费者、监管机构或雇员,会对企业的声誉产生负面影响。

财务风险:算法中的错误或漏洞,特别是用于与财务利益相关的决策时,可能会导致企业的重大收入损失,并对财务报告的完整性、准确性产生负面影响。

运营风险:由于算法被用于自动化供应链和其它自动化运营领域,算法失误可能导致严重的运营中断,从而导致运营失败或使运营活动达不到预期的目标。

监管风险:错误算法会误导企业做出违反公司规章制度或监管机构相关要求、甚至相关法律法规的行为,使企业面临监管处罚的风险。

技术风险:算法的广泛使用需要全新的IT基础设施和架构,增加新漏洞的风险,引发未曾出现的技术难题,导致技术开发中断或失败。

战略风险:随着算法被越来越多地用作战略决策的依据,算法漏洞会误导企业决策,从而使企业处于竞争劣势。
 

➤ 德勤算法风险管理框架

德勤算法风险管理框架涵盖算法全生命周期,涉及策略和管理、开发和部署及上线后管理三大方面,帮助企业认识算法的风险和局限,建立算法风险管理体系。

德勤算法风险管理框架:

德勤算法风险管理架构图

策略与管理:侧重算法在企业中的管理策略,从流程、制度等方面出发,评估企业算法风险的管理现状,建立整体管理体系。

开发和部署:从算法设计流程至算法部署流程,数据评估,再到算法使用,关注算法在开发和部署过程中的潜在风险,在设计过程中规避由于偏见导致的算法风险。

上线后管理:算法上线后,持续监控算法使用情况及算法结果,进行敏感度分析和独立验证,规避算法执行中的失控风险,降低由于算法不可验证、算法问题解决方案复杂等特性可能导致的损失。

 

通过应用算法风险管理体系,可以规避或降低算法潜在风险,提高算法预测精准度,合理释放数据的巨大潜力。对应用通用及复杂算法的企业而言,建立算法风险管理体系,也是企业在数字化转型过程中敢用数据、用好数据的保障。

此内容是否提供了您需要的资讯?