強化学習は、機械学習の急速に発展している分野です。 AIの最近の驚くべき成果のいくつかは、深層強化学習の指数関数的な成長の結果です。 このブログ投稿では、強化学習がシミュレーションを必要とする理由を示し、モデルのソースファイルをダウンロードして試すための手順を提供します。
深層強化学習の成功
おそらく、深層強化学習の最も有名な例は、DeepmindのAlphaGoと対戦した碁の世界チャンピオンであるLee Sedolの敗北です。 ルールは単純ですが、碁は複雑で非常に難しく、人工知能が習得するための古典的なゲームの最大の課題と見なされており、結論を出すためにより有効な方法があると推定されています。
#AlphaGo won game 3, claims match victory against best Go player of last decade, Lee Sedol → https://t.co/MbtYm64lhL pic.twitter.com/goHJvxCPUI
— Google (@Google) March 12, 2016
AlphaGoは、深層強化学習を使用して、この一見達成不可能な目標を達成し、何百万ものゲーム中でトレーニングを行いました。 システムはゼロからゲームをプレイする方法を学ぶことができ、数日で数千年の人間の知識を蓄積しました。
AlphaGoの成功をよりよく理解するには、コンピューターがどのように学習するかを検討する必要があります。 大まかに言えば、人々は2つの方法で学習します。知識の伝達(教師または本から)、または試行錯誤のいずれかです。 同じことがコンピューターにも当てはまります。
コンピュータープログラムの場合、知識の伝達方法はチェスのルールと戦略をコンピューターにコーディングするようなものであり、それを使用してチェスをプレイできます。 対照的に、試行錯誤の方法は、優れたゲームプレイと見なされるものについて独自の知識と直感を身に付けるまで、チェスを繰り返しプレイするコンピューターに似ています。
シミュレートされたプレイグラウンド
試行錯誤のために、コンピュータープログラムはアイデアを試し、ミスや実績から学ぶためのプレイグラウンドが必要です。 このような環境は、現実の世界(たとえば、私道、制限された空域、または模擬組立ライン)にある場合もあれば、仮想環境にある場合もあります。
現実のプレイグラウンドで実行した場合は、よりリアルになりますが、その反面シミュレーション環境と比較して、建設コスト等や生活や環境に対するリスクの可能性等、多くの弱点があり、 その他規制等も実験を制限する可能性があります。
対照的に、シミュレーションモデルには制限がなく、 仮想環境のモデルは、時間の経過に束縛されないため、実世界よりも高速に実行することができます。 この利点は、協力戦略ゲームDota 2の世界チャンピオンを簡単に破った後、OpenAIによって明らかにされました。10か月のトレーニングで、OpenAIシステムは45,000人年分の練習を完了しました。
OpenAI Five is now the first AI to beat the world champions in an esports game. Here's what happened, and how we made our comeback since losing to pros in Aug 2018: https://t.co/QH6yj0Gmz3 pic.twitter.com/WvV4ERTvZt
— OpenAI (@OpenAI) April 15, 2019
深層強化学習は、人工知能の世界における新しい開発であり、依然として主に研究トピックと見なされていますが、シミュレーションモデリングは何十年もの間、日常的に実用化されています。 非常に成熟したコミュニティがあり、実世界の例が膨大にあります。
シミュレーションコミュニティでの一般的な慣習は、シミュレーションモデルを作成し、各種実験(最適化、モンテカルロ、パラメーター変動など)を実行し、出力結果を使用してモデル化された実際の対応物についてより良い決定を下すことです。 このアプローチでは、シミュレーションモデルで実験し、そこから情報を取得するために人間の介在が必要です。
前述のように、深層強化学習の最近の開発により、学習エージェント(コンピューターアルゴリズム)もシミュレートされたシステムから有用な決定(ポリシー)を抽出できることが明らかになりました。 そのため、特にゲームの課題からビジネス指向の目標に関心が移るにつれて、シミュレーションモデリング環境と機械学習を組み合わせが理にかなっています。
強化学習のサンプルモデル
トレーニング環境として強力な汎用シミュレーションツールの機能を紹介するために、AnyLogicはSkymindと協力して、信号制御された交差点のシミュレーションに基づいたシンプルでありながら実例となるモデルを開発しました。 このモデルの同様のバージョンが、テキサス州オースティンで開催された2019 AnyLogic Conferenceで、AnyLogicを使用した深層強化学習の実際的な応用に関するプレゼンテーション[ビデオ]の一部としてデモされました。
ご自身で試してみたい場合は、AIマテリアルパックをセットアップすることでソースコード、必要な強化学習ライブラリ、およびモデル作成の詳細な手順を入手することができます。
❕ AIマテリアルパックの例は、単純で実例となるように意図的に設計されています。 そのため、機械学習ポリシーを優れたヒューリスティックと人間に合わせたアルゴリズムに置き換えることができ、学習プロセスに人間が関与しません。つまり、AIは、シミュレーションモデルとの相互作用に基づいて、意味のあるポリシーを独自に学習します。 たとえば、より現実的なケースがセットアップされ、いくつかの隣接する交差点で効果的にトレーニングされた場合、学習エージェントは人間のキュレーションアルゴリズムに対する真の優位性を示し始めます。
さあ、モデルを使用してみてください。複数の交差点を正常に拡張できますか? コメントをお知らせください!
⭐ Skymindチーム、特にSamuel AudetとEduardo Gonzalezに感謝します。このプロジェクトに参加してくれた彼らの貢献は非常に貴重でした。 サンプルモデルで使用されているDL4Jライブラリに関するその他の質問は、Gitterページで確認できます。
❗ さらに、この10月3日、4日に神奈川県川崎市でイベントを開催します。AnyLogic社のシミュレーションエンジニアでマテリアルハンドリングライブラリの開発者であるAnastasiia Zhiliaeva(アナスタシーア・ジリーエバ)と日本のパートナーであるテックサポートマネジメント有限会社がAnyLogicセミナー/トレーニングセッションを開催します。シミュレーションモデルをゼロから構築する方法を学び、さらにAnyLogicクラウドやAIシミュレーションに関する情報を提供します。イベントは英語と日本語で行われます。登録>>