製品配送の強化学習

AccentureのAgustin AlbinatiによるAnyLogicでのPathmind強化学習(Pathmind Reinforcement Learning)の使用に関するゲストブログ。 Pathmind RLは、AnyLogicのPathmind RL Experimentで利用できます- 詳細をご覧ください


新しいテクノロジーが出現すると、業界は優位性を獲得するため、または単に競争力を維持するために、それらを実装する方法を見つけるようになります。時間の経過とともに、テクノロジーをより使いやすく、より広く普及させるのに役立つ新しいツールが開発されています。Accentureは、サプライチェーンの意思決定プロセスの改善に重点を置き、AnyLogic Product Deliveryサンプルモデル(AnyLogic Cloudで利用可能)を使用して新しい強化学習(RL)の可能性を証明しました。


モデルと強化学習をどのように使用されるのかを学ぶ、チュートリアルを始めましょう。

Pathmindとの協業

その目標を達成するために、Accentureはサンフランシスコを拠点とするAI企業Pathmindと提携しました。 Pathmindは、最新のRLアルゴリズムとAnyLogicシミュレーションモデリングを組み合わせて使用できます。学習アルゴリズムには、さまざまな状況おいて、どのアクションが最適に機能するかを学習するための時間が必要なため、この協業はポリシートレーニングにとって大変重要です-学習時間は、コンピューティング環境の外部で提供するのは困難です。

この場合、ミュレートされた環境は実際のテストと比較して関連するコストが最小限であるため、これより優れたトレーニングの場はありません。さらに、シミュレートされた環境はさまざまな条件下で何度も実行できるため、RLアルゴリズムは数千年においてもシミュレートされた環境でトレーニングできます。


RLモデル

ニューラルネットを作成するときに定義する3つの重要な要素があります。 これらの要素は、観察スペース、アクションスペース、および報酬関数です。

観察スペース

これはRLエージェントが見るものです。実行するアクションを決定するときにのみ、これらの変数を調査します。最終的な目標は実際の環境で機能することであるため、実際の環境で利用できる情報を提供することが重要です。

このモデルでは、エージェントに次のデータを提供できます。

  • 在庫情報(Stock Info):各製造センターの現在の在庫
  • 開始車両(Starting Vehicles):各製造センターにある車両の数
  • 空き車両(Free Vehicles):各製造センターで利用可能な車両の数
  • 注文金額(Order Amounts):注文されたアイテムの数。配送センターの注文がない場合は0

アクションスペース

アクションスペースは、RLエージェントが決定を下すことができるアクションの範囲です。この場合、アクション空間はサイズ15x3のベクトルです。15の流通センターが注文すると、RLエージェントは3つの製造センターのどれがそれぞれを満たすべきかを決定します。注文が生成されない場合、その配送センターのアクションは無視されます。

報酬機能

報酬関数は、RLエージェントが正常に機能しているかどうかを通知する方法です。RLは、この機能を最大化しようとするようにトレーニングされます。 私たちの報酬機能は次のように単純でした:


reward = before.avgWaitingTime – after.AvgWaitingTime


これは、待機時間を最小限に抑えることだけを試みたことを意味します。待機時間が長くなると、関数はさらに負になり、RLエージェントはパフォーマンスが低下していることを認識します。

図1:トレーニング中のAvgWaitingTime(青)とAvgDistanceTraveled(緑)。

図1:トレーニング中のAvgWaitingTime(青)とAvgDistanceTraveled(緑)。

図2:トレーニング中の平均報酬。

図2:トレーニング中の平均報酬。

結果

待機時間結果。
待機時間結果。

得られた結果は非常に良好でした。この方法では、Nearest Agentヒューリスティックよりも4倍以上短い待機時間が生成されました。RLが他のヒューリスティックを大幅に上回っている理由は、工場が需要によって過負荷になることがあるという事実を説明できるためです。ここでの主な違いは、RLポリシーが動的に注文を割り当てることを学習したことです。配送センターに最も近い工場が限界に達しようとしているとき、RLエージェントはさらに離れた工場に注文を出します。これは、生産能力を需要に合わせるのに役立ちます。他の方法は静的であり、需要の急激な変化に適応することはできません。



チュートリアルを始めましょう

このシミュレーションモデルは、AnyLogicクラウドで公開されています。ご自身で試してみることができます。

Pathmindのチュートリアルを始めましょう。

専用のPathmindページで、AnyLogicの強化学習にPathmindを使用する方法の詳細をご覧ください。

関連記事