catch-img

【前編】MLOpsとは? ~機械学習モデル開発後の落とし穴~

新型コロナウイルス感染拡大の影響を受け、多くの企業がリモートワークを導入し、働き方や組織のあるべき姿について再定義されるこの環境下で、AIをどのように活用するべきなのでしょうか?

AI教育・研修を切り口に、要件定義・試作品(PoC)の開発支援など、AIに強い組織づくりを支援してきた株式会社アイデミー 代表取締役社長 石川聡彦が、

「機械学習モデルの運用とその課題点」

について講演しました。

目次[非表示]

  1. 1.MLOpsとは?
    1. 1.1.機械学習モデルのフェーズ
    2. 1.2.世間の機械学習に対する間違ったイメージ
    3. 1.3.機械学習モデルの活用後に必要となるタスク
    4. 1.4.MLモデルの再訓練とは?
    5. 1.5.データサイエンティストと人材
    6. 1.6.PoCから実運用までの断絶
      1. 1.6.1.PoCの検証ポイントと実運用のための検証ポイント
    7. 1.7.運用フェーズにおけるステークホルダーの変容
  2. 2.Aidemyで提供できるソリューション
    1. 2.1.「modeloy」で実運用フェーズの工数を一気に削減
    2. 2.2.「modeloy」を利用する魅力
  3. 3.まとめ

MLOpsとは?

機械学習モデルのフェーズ

機械学習モデルのプロジェクトは大きく4フェーズあります。

  1. AI人材の育成
  2. AIで解くべき課題の特定
  3. AIモデルの作成
  4. AIモデルの運用

まず社内でAI人材を育成してリテラシーを向上をさせ、次にAIで解くべき課題を特定していきます。必要なデータが十分に集まると、AIモデルを作成して運用されるフェーズに到達します。

今回はここから先の部分の話となります。

世間の機械学習に対する間違ったイメージ

AIモデルが完成すると「後は運用をすればいいのでプロジェクトはもう終わりに近いぞ!」と思われる方が稀にいらっしゃいますが、機械学習モデルの運用フェーズが最も時間と手間がかかるのです。

機械学習モデルの運用フェーズをMLOpsといいます。様々な定義がありますが「本番環境でのMLアプリケーションの導入と管理を迅速化する、拡張性と管理性についての技術とベストプラクティスの集積体」と説明されることがあります。

もしかしたら、こちらの図をご覧になり「2/3は開発で、運用は1/3しかない。プロジェクトの大部分が終わったと言っても差し支えないのではないか」と思われる方がいらっしゃるかもしれません。

こちらの図はMLOPpsの全体像を示しています。各工程にかかる労力がその面積に比例させるように表現されています。この図が正しいと仮定すると、機械学習モデルの構築は、中央の非常に小さいオレンジ色の部分にあたります。一方でMLOPpsに含まれる範囲は、右側の破線で囲まれた部分です。

つまりプロジェクトの半分以上がMLOpsになることが分かります。ここからが本当の戦いになってくるというわけです。

機械学習モデルの活用後に必要となるタスク

機械学習モデルを活用した後に必要になってくるタスクには様々なものがあります。例えば下記のようなものが挙げられます。

  • 管理画面の用意
  • 異常時の通知
  • データ保存基盤の構築
  • IoT デバイスの管理
  • 継続的なアノテーションの実施
  • MLモデルの再訓練

ここからは、この中でも代表的な「MLモデルの再訓練」についてお話しします。

MLモデルの再訓練とは?

ML(機械学習)モデルの性能は、時間が経つほど上がるのか下がるのか、想像がつきますでしょうか。

時間が経てばデータが溜まるので、性能が上がると思われる方が多いと思います。確かにそれは正しいです。ただ、基本的にはMLモデルの性能は下がってくるものですが、再学習をすることで性能が上がるという言い方がより適切かと思います。

MLモデルの性能が、基本的に下がってくる理由は大きく二つ、

  1. 未学習データパターンの混入
  2. データの質的な変化

が挙げられます。

たとえば、フリマアプリ「メルカリ」にMacBookを出品する時、画像をアップロードすると商品のカテゴリや価格がレコメンドされます。過去のデータに基づいて推論されているわけですので、未学習の商品ではうまくできません。もし新しいMacBookが販売され、従来の製品と比べて大幅にアップデートされていると仮定すると、販売当初に出品を試みてもうまく処理されない可能性があります。なぜならMLモデルがそのデータに対応していないからです。時間が経つにつれて未学習データがどんどん増えるので、MLモデルの性能が下がることになるのです。

一方でデータの質的変化については、新型コロナウイルス感染拡大の影響でNintendo Switchの価格がメルカリやヤフオクで高騰した例が挙げられます。在宅時間が増えたことで人気となり、家電量販店ではなかなか購入できないために、高価格で転売されました。疫病が流行ることでゲーム機の価格が高騰した例は過去にないので、正しく推論できないのです。

ただし、定期的に新しいデータを含めて再学習させることで性能が元に戻る、場合によってはさらに上がるので、MLOpsにおいて機械学習の再学習が必要になるわけです。

データサイエンティストと人材

こちらの図をご覧ください。

  • ビジネス
  • データサイエンス
  • エンジニアリング

この三つの能力を兼ね備えた人材をデータサイエンティストといいますが、非常にレアな人材です。データサイエンスは「機械学習のモデリングに必要になってくる能力」であり、一方でエンジニアリングは「MLOpsの実装に必要になってくる能力」であるので、全く別のスキルです。そこへさらにビジネスの能力も兼ね備えた人は非常に少ないので、各企業はビジネスに強い人、データサイエンスに強い人、エンジニアリングに強い人をそれぞれ集めてプロジェクトを組むケースが多いようです。

PoCから実運用までの断絶

こういったことを背景として、PoCフェーズから実運用フェーズの間には大きな断絶が存在しています。ここで言うPoCとは機械学習のモデルを作ること、実運用とは実際にそのモデルを現場で使うことです。断絶の内容としては、実データを用いたテスト、運用システムの構築、オペレーションの変更などが挙げられますが、中でも運用システムの構築に大きな課題があります。機械学習モデルのPoCは完成したものの、実運用に至らないという現象は、スラングで「PoC死」などと呼ばれていますが、実運用に至るハードルの高さが表れているのです。

PoCの検証ポイントと実運用のための検証ポイント

PoCの検証ポイントとしては、まず「MLモデルの初期精度がでるのか?」ということになりますが、実運用のためにはそれに加えて

  • 運用で利益を生み出せるか
  • 日時でデータを増やせるか
  • 自動で再学習できるか
  • 精度の低下に気づけるか

などといった、観点で検証する必要があるので、すぐにPoCから実運用へ移管するのではなく、実運用のためのポイントを検証しながら実際に試験運用する「プレ運用」が重要となります。PoCを構築するリソースをできるだけ小さくして、リスクを最小限に抑えながらサイクルを早く回すことで、成功確率が高まると言われています。このように、プレ運用フェーズではできるだけミニマムな形で運用システムを構築し、MLモデルの改善をしながら徐々に実運用に移管することが必要です。

運用フェーズにおけるステークホルダーの変容

企業の運用フェーズにおける変化としては、ステークホルダーが変わるということも起こります。

私どもアイデミーの場合は、横串組織でPoC制作を含めた機械学習のプロジェクトを進行するケースが多くあります。経営陣の意向がダイレクトに伝わるのが横串組織であると考えているからです。その中で、実運用に移行するためのプレ運用のシステムを誰が担当するのか、という独特な問題があります。

プレ運用システム開発は、

  • 外注?
  • 外注するならばSlerに依頼?
  • 内製?
  • 内製するならば RD/DX部が中心?
  • 現場が中心?

など多くの選択肢があります。PoCの制作はトップダウンでRD/DX部を中心として行われるケースが多いですが、プレ運用システムの担い手はケースバイケースです。それぞれに事情や得意分野があることや、機械学習のモデルを制作することと運用能力は全く異なることを踏まえると、どの選択肢を選んでも課題感は大きいでしょう。

従来、PoCでの運用システムは未実装で、MLモデルはRDチームが制作を主導するケースがありました。一方でプレ運用・実運用フェーズになったときは、できるだけコストを下げていち早く現場で使えるようにするのが重要なので、既存プラットフォームを用いてインフラを構築することが重要です。運用システムとMLモデルをセットで現場に渡すことで、機械学習のモデルを使いやすくなるため、現場が改善に集中できるようになります。

MLモデルは競合優位性を構築するという観点でも非常に重要です。徐々にデータが蓄積されて高い性能を実現できるので、競合他社は簡単に模倣ができません。長い時間をかけてデータを蓄積し、オペレーションを回すことで性能を上げる必要があるからです。競争優位を作るという観点では、現場がMLモデルの改善に集中できる体制を整備しつつ、運用システムはできるだけ低コストにすることが、あるべき姿なのです。

Aidemyで提供できるソリューション

アイデミーのサービスには、AI人材育成の「Aidemy Business」、MLOpsに特化したソリューションとして「modeloy」があります。

「modeloy」で実運用フェーズの工数を一気に削減

機械学習の実運用フェーズの工数を一気に削減するプラットフォームとして「modeloy」という製品のプレ運用を開始しました。

特徴としては、

  • AIプロジェクトの内製化をMLOps面で支援
  • 教育・研修と合わせた利用で現場に主体を移管
  • 「リアルな場」の案件の機能をアップデート中

というポイントが挙げられます。

これから様々な企業でこういったプラットフォームが必要になってくると考えられますが、「modeloy」は特にメーカーを中心とした「リアルな場」との連携機能を充実させ、MLモデルの運用に特化したプラットフォームとして制作しています。最終的なゴールとしては、MLモデルの作成と運用の差分をゼロに近くすることを目標として取り組んでいます。

「modeloy」を利用する魅力

MLOpsに必要な初期開発は、従来ですと

  • ダッシュボード開発
  • 運用システムシステム開発
  • デプロイシステム開発
  • データレイク構築及び接続

など様々な開発が必要でしたが、「modeloy」を利用いただくことで、開発コストを8割削減できます。また、MLOpsの保守・運用についても、自動化することで人的コストのを最小化も目指せます。

「modeloy」の基本パッケージを導入していただくことで、現場の方がMLモデルの構築・改善に集中して、素早く運用できるようになります。既に内製されているAIのモデルと弊社の保守・運用のノウハウをかけ合わせて、共同研究・共同開発という形で、今後増加するAIプロジェクトを下支えするプラットフォームをオーダーメイドで開発できます。

まとめ

MLOpsとは
・・・機械学習モデルを作った後に必要なソフトウェア製作です

Aidemyで提供できるソリューション
・・・モデルの保守・運用に特化したソリューションを提供します

新型コロナウイルス感染拡大の影響で、多くの企業活動が制約を強いられています。その一方で、コロナ禍の中でも大胆に行動をして、AI人材の育成、AIで解くべき課題の特定、場合によってはAIモデルの作成を急速に進めた企業も多く見られます。

アイデミーは機械学習モデルの保守・運用に特化したソリューションである「modeloy」を提供することで、各企業の機械学習モデルの保守・運用の工数を格段に下げられるようご支援させていただきたいと思います。

"AIに強い組織体制の構築" について詳しく知りたい方はこちら

資料・導入事例ダウンロード

お問い合せはこちら >