DTCY劉クリスがFICC 2024において論文を発表 ブックマークが追加されました
ナレッジ
DTCY劉クリスがFICC 2024において論文を発表
研究成果の発表:Synthetic Data Generation without Real Data: Uncovering Insights in Malware Detection
学会・研究会:FICC 2024
著者:劉クリス(デロイト トーマツ サイバー)・Katsuyuki Maeda(学習院大)・Junnosuke Takai(学習院大)・Keisuke Murota(東大)・Kilho Shin(学習院大)
URL:https://link.springer.com/chapter/10.1007/978-3-031-53963-3_17(外部サイト)
論文概要:
The use of synthetic data for training machine learning (ML) models has garnered significant attention among researchers as a potential solution to the challenge of balancing privacy protection and data utilization. This paper introduces a novel approach for generating synthetic data that specifically addresses this challenge. Unlike existing methods that focus on closely replicating real data distributions, our proposed approach aims to generate synthetic data without directly using real data, while still enabling the training of ML models to extract specific bits of information. This can be achieved by leveraging only general knowledge about the problem domain, acquired without accessing real data. We applied this approach to the task of malware detection and conducted experiments to evaluate its effectiveness. The results not only validated the efficacy of our proposed approach but also led to a significant discovery in the field of malware detection.
機械学習モデルの生成には学習用の訓練データが必須であるが、プライバシーや機密の保護の観点から現実のデータ(リアルデータ)を訓練データとして利用することは必ずしも可能ではない。差分プライバシーなどの基準を満たすように処理を行うことで、ビッグデータの安全な利活用を実現する試みがなされているが、高度な匿名化処理ではデータの品質・精度を意図的に劣化させることから、処理後のデータを学習目的に利用できる保証はない。別のアプローチとして、リアルデータの分布に似た分布をもつ合成データの利用も研究されている。しかしながら、従来の手法では、合成データの生成には依然としてリアルデータへのアクセスが必要であり、問題の根本的な解決には至っていない。本論文では、以下の理解に基づいて、リアルデータを使わずに合成データを生成する手法について報告する。機械学習では、特定の事象の予測のみにおいて一定以上の正確性が得られれば十分で、合成データの分布がリアルデータのそれに似ていることは必ずしも必要ではない。例えば、本論文で取り扱う問題は「プロキシーログの内容からマルウェアに感染した端末を検知する問題」であるが、機械学習アルゴリズムがマルウェアによるプロキシーログとの乖離を検知可能なように、人工的なプロキシーログを合成することができれば、合成ログの分布が現実のログの分布と似ていなくても問題ない。本論文では、公開されているマルウェアの検体から得られるプロキシーログ(正例データ)と、一般的知識に基づくシミュレーションにより生成する正常な状態を表すプロキシーログ(合成された負例データ)を学習した機械学習モデルが、リアルデータに対しても優秀な分類性能を発揮することを示す。