議題觀點
科技風險系列 - 運用機器學習強化金融犯罪偵測
勤業眾信風險諮詢服務 / 江榮倫執行副總經理、吳宜頻協理
隨著台灣對於金融犯罪風險管理意識逐漸成熟,包含對於理專不當行為、黑錢清洗活動、稅務犯罪、金融詐欺活動、金融科技犯罪(如深偽技術、駭客攻擊等)複合性風險,各金融機構在建構金融犯罪風險與行為風險管理架構之際,也逐漸評估結合機器學習(Machine Learning)模型發展的方式,在傳統人力檢查以及規則型過濾報表(Rule-based report)之外,以數據分析與機器學習的方式,來強化對於上述不當行為的偵測強度,並提高檢測效率與準確度。
然而許多金融機構在運用機器學習模型解決金融犯罪問題的時候,往往會遇到以下常見的問題:
- 對於機器學習模型要解決的金融犯罪問題,定義不甚清楚,或是問題邊界不清楚。
- 內部主管對於機器學習模型的成效有錯誤認知,認為一帖藥方要解百病。
- 機器學習模型要維持高效率運作,作為前置基礎的資料治理與資料正規化活動不可少。
- 內部對於機器學習模型發展的相關人才(如數據分析師)尚欠缺,無法有效統合各方意見。
- 金融犯罪實際存在公司內部的樣本資料甚少(甚至沒有),導致機器學習模型偵測效果低落。
- 金融犯罪樣貌時常改變,如何持續維持機器學習模型偵測的強效果,也需有機器學習模型生命週期管理的機制。
金融機構過往多半會運用信用風險度量模型或是信用卡交易異常偵測模型的經驗,來逐步擴建至金融犯罪偵測範疇,這是一個良好的起手式,因為在機器學習模型發展過程中,與信用模型發展過程的確有許多相似的地方,但是由於金融詐欺、行員內部不當行為等金融犯罪,亦有其犯罪屬性與資料特性,因此也需要金融犯罪專家與數據分析師的共同合作,才能夠發揮合適的異常交易過濾效果,勤業眾信建議金融機構可從以下五點進行模型發展強化工作:
圖一、金融犯罪機器學習模型發展重點說明
一、特徵工程對金融犯罪機器學習模型發展的重要性:
從金融機構既有的資料集,我們往往遇到的不是資料太少,而是資料品質參差不齊,因此資料清理活動結束後,如何篩選出好的資料特徵,是機器學習模型過程中最重要的一個環節,建議金融機構可以多根據金融犯罪的處理經驗及金融產業特性,設計出好的衍生資料欄位,都可以強化特徵工程活動發展中的效果。
二、對於金融犯罪異常資料的蒐集與生成方式掌握:
此外,針對部分特定的金融犯罪場景,有可能在該企業內部完全沒有發生過,因此為了讓金融犯罪機器學習模型也能夠有一定的偵測效果,如何基於金融機構的資料結構,產生對應的金融犯罪生成式資料,也是關鍵之一,而部份透過內部稽核或是內部查調結果而發現的可疑案例,如何對應出金融犯罪的異常資料放入訓練資料集之中,包含考量實際資料分布情況與時間序列影響,都是在此階段需要反覆檢測的重要活動。
三、適當運用自動化機器學習(AutoML)管理平台來提高模型發展效率:
過往金融機構在發展機器學習模型時,不論是監督式模型或是非監督式模型,都需要耗費大量時間進行程式碼的撰寫與機器學習模型設計,然而目前在許多科技逐步成熟的情況下,金融機構也可以適當使用自動化機器學習平台來簡化,透過AutoML平台依據金融機構所導入的資料集,以平行計算方式分別嘗試不同的演算法與重要參數,並確認重要的特徵欄位情況,進而自動分析出最佳化的機器學習模型,能夠讓數據分析家更加專注在模型產出的可解釋性。
四、對於複雜的金融犯罪問題,需要從不同角度多方思考:
由於金融犯罪在變形的過程中,往往夾雜許多情況,因此建議金融機構在發展初期,可以先將要透過機器學習模型解決的問題顆粒度調小一點,例如先理解過往一段時間客戶的金流進出適合合理,過往一段時間理專處理客戶資料的需求是否正常,遠比直接要透過機器學習模型直接詢問內部行員有無舞弊,要來得更容易執行,而如何使用專家經驗,先適當將金融犯罪場景切割成比較合適發展的目標問題,也是關鍵之一。
五、機器學習模型產出的可解釋性與後續調查方式:
在金融犯罪機器學習模型發展至一定程度後,也需要金融犯罪調查團隊能夠適當解讀模型產出的意義,並且從調查手法中進行配套設計,進而重新累積新的觀點或金融犯罪案例後,再回饋到模型中進行驗證或是持續訓練,在模型發展生命周期中,這是不起眼,但是也是最重要的一個環節,如何讓模型產出更具可解釋性,比單一追求模型高偵測率要來得更重要。
綜觀勤業眾信過往專案經驗,台灣金融機構在發展金融犯罪機器學習模型的挑戰或技術門檻,已不若以前來得如此艱辛,加上近年相關新興科技快速發展,如生成式AI、雲端計算服務的快速成熟,相信在不久將來,金融機構對於金融犯罪風險管理的思維與管理方式,將進入另一個新的篇章!