文章

数据资产良莠不齐,资本如何披沙拣金?(上篇)

数据尽职调查助力去伪存真

近日,某数据团队发表通过爬虫技术抓取了某旅游类社交网站的评论内容,并将其与其他同类网站进行了对比,发现近万个“抄袭账号”发表的评论与其他网站几乎一模一样,进而直指该旅游类社交网站内容造假。追溯这些账号的活跃时间段,不难发现,正是几轮融资前夕。

可以看到,相对于传统企业,互联网企业的数据除了结构化的数字和文字形式以外,还有大量评论、照片等非结构化数据。部分初创期的互联网企业,可能会为了获取更有优势的融资条件,通过各种隐蔽的手法来虚造数据,创造虚假繁荣。对于投资方而言,就需要有效甄别被投企业数据资产真实性,披沙拣金,识别出真正的独角兽企业。
 

与时偕行:数据尽职调查的关注点和工具要紧跟互联网企业数据资产发展趋势

从互联网企业的数据资产发展来看,数据经历了驱动内核、形态和规模三个方面的变革。从数据内核来看,传统企业的数据产生方式往往是围绕业务环节的开展过程生成产品的生产、运输、销售等方面的数据;对互联网企业而言,数据往往来源于用户的各类使用行为,这就产生了浏览、点击、评论、图片上传等方面的数据。从数据形态来看,随着信息载体的多样化,诸如数字、文字这类结构化数据已不足以支撑多元信息的展示,图片、语音、视频等形式的非结构化数据变得更加常见。从数据规模来看,互联网企业的用户动辄上千万,数据量也从GB级向TB、甚至PB级别发展。

数据发生的这些发展和演变也对第三方尽职调查提出了更高的要求。对以数据分析、数据挖掘等技术为手段,专门针对业务的真实性和准确性开展的数据尽职调查来说,也需要转变调查的思维和工具来适应这些变化:1)评估运营数据的真实性不足以应对越来越隐蔽的用户造假、刷单等行为,需要从数据资产的整体视角出发识别虚假数据;2)传统的Excel、SQL等数据分析工具将越来越难以通过识别复杂信息的关联关系来辨别异常交易,需要引入AI算法来进行交叉验证和分析;3)关系型数据库主要针对数字信息进行分析,无法胜任图像、文本等类型的数据资产,需要引入非关系型数据库来获取、加工和分析这类数据信息。


因地制宜:不同类型的互联网企业要有针对性地调查核心价值指标

不论是互联网企业自身还是投资方,在融资时最为关注的都是标的互联网企业真正的核心价值。为了尽可能提高融资金额、在谈判中获取更多的主动权,部分被投的互联网企业就可能会铤而走险,围绕能够体现企业价值的指标来虚造数据。

互联网企业一般分为门户、平台服务和社区三大类,不同类型的企业核心价值指标也不尽相同。上文提到的网站是一个典型的社区类互联网企业,内容的质量和数量、用户的活跃程度及规模是体现其价值的核心指标。这些指标也成为企业在融资前有针对性的粉饰对象。相应地,围绕这些指标开展数据尽职调查可以减少“走弯路”的可能性,即可以更快发现问题线索,找出虚假数据。

对于数据尽职调查而言,只有正确识别企业的核心价值指标,才能有的放矢、事半功倍。
 

披沙拣金:数据尽职调查新方法助力去伪存真

可以看到,互联网企业核心价值指标不乏非结构化数据的身影,为了验证这类指标的真实性,就需要引入非结构化数据解决方案,包括获取数据的爬虫工具、分析文本内容进而判断是否有抄袭现象的语义分析工具、探索复杂关联场景下交易真实性的知识图谱分析工具等。

此外,从业务场景出发的有监督算法或分析模型可能难以识别更加隐蔽的造假方式,例如通过异常交易时间、已知的异常行为模式等规则化筛查虚假交易订单、虚假用户往往难有所获。这就需要引入无监督算法模型来揭示用户行为特征,通过聚类分析、主成分分析法、异常检测法等分析方法来帮助定位异常户群体或异常指标表现。

数据尽职调查只有与时偕行,因地制宜才能帮助资本披沙拣金。在下篇中,我们将通过具体的案例来说明如何运用这些新方法,针对互联网企业核心价值指标进行数据尽职调查,定位虚假信息。

 

此内容是否提供了您需要的资讯?