MLOps - AI開発やPoCでよくある課題と、PoCフェーズからMLOpsを導入することで得られる3つの効果とは? - ブックマークが追加されました
本ブログでは、機械学習(ML)の運用プロセス(Operations)を高度化するための仕組みである、MLOpsについてテーマに沿って解説しています。前回の記事では、機械学習・AIを取り巻く現状について、デロイト トーマツの調査を基にご説明しました。
第2回目の今回は具体的な事例や考察を基に「AI開発やPoCでよくある課題」と「MLOpsをPoCフェーズから導入することで得られる効果」について考えてみます。
具体的な事例の前に、MLOpsの構成要素について説明します。MLOpsは主に「管理」「モデル構築」「本番環境適用」「監視」の4つの重点領域で構成されており、これらが組み合わさることで、モデルの開発や運用を効率的かつ効果的に行うことが可能です。これからご紹介する事例が下記のどの領域に該当するかを想像いただきながら、ご覧ください。
まずは化学系メーカーでのPoC事例に基づき、PoCにおけるMLOpsを考えてみましょう。
・課題
PoCでは複数の原材料のAI需要予測を行うことで、その結果に基づいた取引価格の最適化を図っていました。AI開発・PoCにおいては、通常のシステム開発に比べ、AIへのインプットデータの断面、データの前処理内容、モデルのパラメータ設定等、バージョンの管理をする対象が多く、煩雑になってしまうことが多くあります。PoCを進める中で大きな障壁となったのは、良い予測結果を得るために良かれと思って実施したモデルのチューニング、アルゴリズムの変更です。
実際に本事例においても、予測対象別に異なるアルゴリズムを使用し、個別にパラメータチューニングを進めていった結果、モデルの性能とパラメータ管理が煩雑になり、モデルの性能を図る際にミスが生じやすくなっていました。また、複数人でのAIモデル開発を行っていたため、ソースコードの引き渡しタイミングやタスクの認識齟齬、開発環境の差異などにより、バージョン管理がうまくできていない問題があり、AIモデルの性能向上という本質的な取り組み以外への対応へ多くの時間を割く必要がありました。
・対策と得られた効果
これらの問題に対し、アルゴリズム選択・パラメータ設定などを設定ファイルに記載し、モデルの学習した重み・テスト結果を一覧にまとめることで、様々な設定での試験結果を管理することが可能になり、ソースコードのバージョニングや開発環境差異に関しては、Git(ソースコード管理ツール)・Docker(コンテナ仮想化ツール)の導入、運用ルールを定めることで、バージョニング管理に関する問題を解消することが出来ました。また、PJでのコミュニケーションについても、”カンバン”(アジャイル開発にて用いられる管理手法)で各自のタスクの分担・管理することで、お互いの作業・担当範囲が明確化され、タスクの抜け漏れや認識齟齬などを防ぐことが出来ました。
これらの取り組みは原始的な手法であるものの、MLOpsの取り組みとなっており、PoCにおいても複数モデル開発や複数人の開発で実施する際には非常に有効な手立てとなりました。
2つ目は、日本国内の保険業界の事例です。
プロジェクト当初のPoCフェーズでは、モデルの本番適用・監視プロセスを検証内容に含めておらず、PoC~本番化までにさらに1年以上の工数をかけて、PoCフェーズでは検証できていない課題に対処していました。具体的には、ビジネスサイドではどのようなアウトプットがモデルから求められていて、そのアウトプットを継続的に、かつ高品質で取得するためにはどのような体制や基盤が必要かについて十分に検討できていませんでした。
事例①で述べたコードやモデルのバージョン管理不足以外に、2つ課題が考えられます。1点目は「本番環境適用までのプロセスが煩雑である」というモデル展開時の課題です。特にPoCでは、データサイエンティストが手元に持っている環境で試験的に開発する場合が多く、本番環境適用時にいかに既存のIT基盤に処理を組み込むべきかを悩んでいるケースです。
2点目は、「AIモデルの変化を監視出来ていない」といったモデルのパフォーマンス監視に関する課題です。PoCフェーズで作成したデータやモデル性能の変化を本番環境でも監視できていないと、信頼できるアウトプットを提供できなくなります。
これらの課題によって、せっかく高品質なAIモデルを作っても、低品質で性能の悪いモデルが本番環境に適用されることで、ビジネス的にも大きな損失を招く可能性も高まるでしょう。
事例①・②の内容から、PoCフェーズからMLOpsを導入し、より本質的な部分にリソースを割くことによって以下3つの効果が期待できると考えられます。
1. AIモデルの精度の維持や改善が可能に
PoCの段階から自動化されたパイプラインを整備することで、本番環境適用後も品質を維持したまま、頻度高くトレーニングができるようになります。過去には、モデルをアップデートするまでに数日以上時間を要していましたが、数分で更アップデート、数千台のサーバーに同時に再展開し、モデルの品質を一定に保つことに成功した事例もあります。*1
2. 運用工数が大幅に削減
品質を維持することが可能になる点以外に、検証フェーズから本番適用までの時間や、変更管理に要する時間を短縮できる点もメリットの一つです。上記で紹介した事例以外では、データからビジネスに対する洞察を得るまでの時間が4カ月から2週間になり、意思決定までのスピードが格段に向上した事例もあります。*1
3. 役割の異なるメンバー同士でのコミュニケーションが円滑に
データサイエンティスト、エンジニア、ビジネス担当者など、様々な役割の担当者が共通で閲覧できる仕組みを構築したり、専用のプラットフォームを利用したりすることで、コミュニケーションが生まれ、モデルの開発や改善、継続的な運用もスムーズに実現できるようになります。特に検証フェーズでは、アジャイル的にプロジェクトが進むことが多いため、共通のコミュニケーション基盤を作ることは、認識のズレや行き違いによる損失を減らす意味でも重要な役割を果たすでしょう。
今回はAI開発やPoCでよくある課題と、PoCフェーズからMLOpsを導入することで期待できる3つの効果についてご説明しました。次回は、MLOpsの本番導入フェーズでの要点について議論します。
Jin Rongsheng
デロイト トーマツ コンサルティング スペシャリストリード
中国の大学でソフトウェアエンジニアリング専攻を卒業し、日本にわたり10年以上のシステム開発に従事。フルスタックエンジニアとして、オープンソースから商用クラウドを活用してWebサービス、アプリ、会計システム等をフロントエンドからバックエンドまで設計開発、運用を経験。データサイエンティストとして、会員事業、コマース事業、広告事業向けの機械学習モデルの構築を手掛けた実績がある。デロイト トーマツではRPA、チャットボット、データ分析基盤、DataRobot、広告効果検証基盤、BI分析基盤、クラウド移行、データサイエンティスト支援等領域でプロジェクトを担当。技術とコンサルティングの両立を目指して日々取り組んでいる。
山田 奏人
デロイト トーマツ コンサルティング シニアコンサルタント
消費財や小売、製造業を中心に、最適化や需要予測などのアナリティクスを用いた業務高度化支援に従事。データサイエンティストとして、広告効果検証基盤、AIレコメンドシステム、在庫配置最適化モデルなどの構築を手掛けた実績がある。アナリティクスとコンサルティングの両立を目指し、日々取り組んでいる。
阿部 翼
デロイト トーマツ コンサルティング コンサルタント
製造業や金融業界を中心に、マーケティングや営業領域におけるデータ・アナリティクスを活用した構想策定や実行支援に従事。現在はAI&Data AI Insights & Engagementにて、MLOpsを活用したサービス(ML-O2)のユースケース検討やプロモーション活動にも参画している。アナリティクスとコンサルティングを掛け合わせたプロフェッショナルを目指し、日々の業務に取り組んでいる。