データ分析の実応用: ビジネス理解とモデル理解の必要性 ブックマークが追加されました
ナレッジ
データ分析の実応用: ビジネス理解とモデル理解の必要性
いま改めて取り組む時系列予測 — 従来手法からRNNまで
2019年6月11日に東京都内で開催されたSAS Japan Forum 2019に、有限責任監査法人トーマツ デロイトアナリティクスのプロフェッショナルが登壇、時系列予測で用いられるモデルと、ビジネスへの応用について講演を行いました。本稿では、講演の模様をダイジェストにして紹介します。
目次
- 時系列予測が必要とされるビジネス環境
- 脚光を浴びるディープラーニングも万能ではない
- 時系列予測の手法、それぞれのメリット・デメリットを理解することの重要性
- ビジネス理解とモデルの理解、両面あってこそ実応用の成功へ繋がる
- 講演者プロフィール
時系列予測が必要とされるビジネス環境
データの重要性が認識され、ビジネス課題の解決に向けたデータの利活用が一般的になってきました。今回のテーマである時系列予測も、必要とされる場面が多くのビジネスで見られます。どのような情報を予測し、その予測結果をビジネスにどう生かしていくのか――時系列予測が必要とされるシチュエーションは多岐にわたります。今後5G通信や各種IoTセンサーの普及によって、事業活動に関する多様な時系列データが入手できるようになり、時系列予測の利用機会はさらに増加傾向にあると考えられます。
<時系列予測を必要とするビジネスシチュエーション>
業種 |
予測対象 | 予測に基づくアクション |
電力 | 電力需要の推移 | スマートグリッドの制御 |
化学プラント | 工場センサデータからの生産量 | パイプラインの稼働最適化 |
銀行 | 過去取引情報による株価 | 高頻度取引の実行 |
不動産 | 将来地価、地域人口 | 物件購入計画、出店計画 |
鉄道 | 各駅利用者数 | 運行計画 |
製薬 | インフルエンザ発症数 | ワクチン生産計画 |
IT | Webトラフィック | サーバ性能の自動スケーリング |
広告代理店 | 各TV局の視聴率推移 | 広告出稿計画 |
情報通信 | 店舗ごと契約者数推移 | 人員計画 |
講演者は「本日は、時系列予測における最近のトレンドに触れた上で、新旧の予測モデルについて概観し、最後にビジネス側面でどのようにモデルを選択すべきなのか、説明する」と講演を始めました。
脚光を浴びるディープラーニングも万能ではない
データ分析のトレンドとして、時系列予測を含む様々な領域でディープラーニングが成果を上げています。画像解析を用いたX線画像診断では、専門家を上回る診断精度が得られたと主張されています。また、あるIT企業のデータセンターにおいては、データセンターの環境変化を高精度に予測して空調コントロールを行い、大幅な電力削減が実現されたとの発表がありました。
ディープラーニングが成果を上げている領域の特徴として、以下の3点が挙げられます。
- 非構造データ:従来のシンプルな手法では取り扱いづらかった画像や音声などを対象としている
- 豊富なデータ:学習の題材となるデータが大量に用意され、存分に学習が行える
- 複雑なパターン認識:レントゲンの読影や複雑系の観測などで必要になる複雑なパターン認識を扱っている
橋井は「ビジネス課題において、常にこの3つが揃っているわけではなく、ディープラーニングを使えばすべてのビジネス課題を解決できるというわけではない。効果を発揮する手法を、場面に応じて見極める必要がある」と述べました。
時系列予測の手法、それぞれのメリット・デメリットを理解することの重要性
時系列予測においては様々な手法が提案されていますが、それぞれの違いを理解しておくことは極めて重要です。時系列予測における代表的な以下の4つのモデルについて、橋井は以下のように説明しました。
- TCSIモデル: 四半期や週間などの生活・商業サイクルに依存した変動に有効
- 「トレンドサイクル(TC)」と「季節性(S)」という明快な構造で分析し、短い期間のデータにも親和性が高い
- 「トレンドサイクル」、「季節性」で説明のつかない要素は扱いづらい
- ARIMAモデル:観測値の前後関係に着目してシンプルな式に表す
- 得られるモデル式がシンプルかつ軽負荷、外部変数の導入等の拡張が容易
- 複雑・不規則な変化をとらえづらい
- 状態空間モデル: 観測対象の持つ内部状態の変化を「状態方程式」として表す
- ARIMAモデルより柔軟なモデル設計が可能で、観測値に欠損があってもモデル化が容易
- モデル設計に慣れていないと使いこなすことが難しい
- RNNモデル: 過去の状態と観測値の両方を利用して将来の観測値を決める
- 複雑なパターンを表現することができ、非構造データからのパターン抽出が得意
- 大量の学習データが必要で、作成されたモデルの内部構造を理解しづらい、計算負荷が高い
では、実際にビジネスで時系列予測を行う際に、どのようにモデルを選ぶべきでしょうか。モデル選択において、橋井は「説明性」「精度」「処理負荷」の3点を挙げ、前述の4つのモデルについて長所と短所を整理しました(下図参照)。
説明性については、TCSIモデル・ARIMAモデルが単純ゆえに理解が容易であると考えられます。状態空間モデルについては、どのような状態方程式を採用するかに依存する側面があります。RNNモデルは内部構造の理解は難度が高いと言えます(これは、ディープラーニングモデル全般に言えることです)。ディープラーニングモデルにおいては、モデルの内部構造ではなく、入力を変えた時の反応の変化から、モデルの特性を理解しようとする取り組みも盛んです。
精度については、TCSIモデルはトレンドや季節性を持つデータに対しては少ない学習データに対してもあてはまりが良い、という特徴があります。これは、モデル自身がトレンドや季節性に特化した構造を持っているがゆえの利点です。これらの対極にあるのがRNNモデルで、複雑なパターンでも柔軟に捉えることができる利点がある一方、実現するには十分な学習データが必要です。例えば、月次のデータを数年分用意するだけでは少なすぎると考えられます。ARIMAモデル、状態空間モデルは、これら2つのモデルの中間にあります。
処理負荷の面では、シンプルなモデルであるほど軽量であると言えます。逆にRNNモデルでは、学習においても推論においても、ある程度の計算能力を必要とします。
ビジネス理解とモデルの理解、両面あってこそ実応用の成功へ繋がる
このように、ビジネスが直面しているタスクでどのような観点を重視するかによって、最適なモデルは異なります。3つの観点に加え、ビジネス選択においては、予測に基づいてどのようなアクションを検討するか、見定める必要があります。講演で橋井は「デロイト トーマツ グループ内でも様々なプロジェクトでモデル選択を迫られる機会があるが、最新の手法に固執せず、ビジネス課題やその状況に応じてモデル選択を行っている」と語り、実際にデロイトアナリティクスでそれぞれのモデルを適用した事例を紹介しました。
講演の最後に橋井は、AI利活用や機械学習を成功させる上では、対象とするビジネスの理解、適用する技術の理解、その両方を考慮した判断の三点が必要であると語り、講演を結びました。
デロイトアナリティクスでは、デロイト トーマツ グループの豊富なビジネス知見とアナリティクスの技術リソースを組み合せ、様々なビジネス課題の解決を行っています。時系列予測に限らず、ビジネスにおけるアナリティクス活用でお困りの企業のご担当者様は、お問い合わせフォームよりご連絡ください。
サービス内容等に関するお問い合わせは、下記のお問い合わせフォームにて受付いたします。お気軽にお問い合わせください。