ハイパースケール データ センター (HDC) は、何千ものサーバー、ラック、およびネットワーク機器で満たされた大規模な建物であり、多くの場合、フットボール競技場数個分の広さです。Meta のキャンパスにはこれらの多くがあり、H 型や I 型のデザインなど、さまざまなデザインを使用しています。
問題
新しい HDC を設計するとき、Meta は接続されたすべての機能で遅延やボトルネックがなく、うまく機能することを確認する必要がありました。考慮すべき重要な要素の 1 つは、建物内のラックに接続されたワークフローを改善する方法でした。
ラックに関連するワークフローには 3 つのタイプがありますが、このケース スタディでは“receiving” に焦点を当てています。このワークフローは、データ センターがオンラインになり、ラックがその特定のデータ センターに持ち込まれるときに発生します。
ワークフローをサポートするチームは、高度なスキルを持つリソースです。したがって、これらのワークフローと、作業のステージングと計画の方法を最適化する必要があります。
しかし、Meta には、HDC 設計における運用上の制約を視覚化してシミュレートする適切なプロセスがなかったため、ボトルネックとスループット機能を理解できませんでした。
解決策
新しい HDC の要件をよりよく理解するために、Meta はモデリング アプローチを実装することにしました。最初のステップは、エージェント ベース モデルの 3D ビジュアライゼーションを作成し、ラック フロー データの検証を促進し、チームのワークフローとリソースの学習を加速することにより、スペース内のワークフロー全体見ることです。これはすべて、HDC の構築前に事前に行われました。
3D ビジュアライゼーションにより、離散イベント シミュレーション モデルの設定と最適化に必要なパラメーターについての洞察が得られました。
離散イベント シミュレーションでは、いくつかの仮定が必要でした。
- HDC は、AnyLogic プラットフォームの複数のパラメーターを持つオブジェクトであり、さまざまな HDC タイプのスループットを予測できます。
- モデル化するプロセスは、さまざまなチーム (受け取りと配置 - チーム 1、通電 - チーム 2、ケーブル接続 - チーム 3、プロビジョニング - 自動化) にまたがる複数のステップでラック受け取ります。
- シミュレーションは 1 週間で、スループットは合計に対するパーセンテージとして測定されます。
- 各チームのリソース数の使用率は 60 ~ 80% に設定されています。
- 朝8時からの勤務で、残業は認められています。
- チーム 1 のプロセスには、トラックの荷降ろし、開梱と事務処理、ドック待ち行列、データ ホールの稼働、エレベーターの容量、1 階または 2 階 (確率は 50/50) が含まれます。
- チーム 2 とチーム 3 の正規分布。
- プロビジョニングには、スイッチとサーバーの 2 つのステップがあり、どちらも 80% に設定されています (これは、20% の時間で手直しが必要であることを意味します)。
AnyLogic の多くの優れた機能の 1 つは、モデルの UI を開発し、パラメーター変更して結果を確認できることです。Meta は受け入れモデル用の UI を作成し、各ユーザーが各チームのパラメーター (人数、残業時間の追加、荷降ろし時間の変更など) を変更できるようにしました。
結果
離散イベント シミュレーション
Meta は、離散イベント シミュレーションで、通常のパラメーターを使用してモデルを実行しました。目標スループットは 100% でしたが、平均期間 3.7 日で 40% しか達成できませんでした。ボトルネックは、ラック プロセス内の配線と配置に特定されました。
最適化実験
スループットを最大化するために、各パラメータの最適値を特定する最適化実験を実行しました。
最適化の結果は、以下の表で確認できます。これらの結果に基づいて、チームはモデルを再度実行し、平均期間 2.2 日間で 92% のスループットを達成できました。これは、初期モデルから 1.5 日短縮されました。その結果、より多くのラックを 1 週間に受け取ることができました。
また、ボトルネックがなく、100% にならなかったのは、時間が 1 週間に設定されていて、この制約内でプロビジョニング (自動化されたプロセス) を完了できなかったためです。
ただし、最適化されたモデルを使用してもすべてがわかるわけではありません。現実の世界には不確実な要素が存在するためです。
モンテカルロ実験
Meta はこれを理解し、モデルの出力を作成するために入力のランダム サンプルを使用する確率的手法であるMonte Carlo実験を使用することにしました。
モンテカルロ実験を何度も実行すると、出力の分布が得られ、1 つのシナリオだけでなく、最後に複数のシナリオを作成できます。
Meta はモデルを 10,000 回実行し、その結果を下の図に示します。X 軸はスループットで、Y 軸はそのスループットの確率です。グラフは、40% の時間でスループットが 90% になることを示しています。20% の確率でスループットが 30% になるなど、他のオプションも表示されます。これらの結果は、90% のスループットが保証されていないことを示していますが、モデルの最も可能性の高い結果です。
次のステップ
- ラックの再配置と更新のプロセスをモデルに組み込みます。
- 通電、配線、およびプロビジョニングの手順に詳細を追加します。
- モデルに対する感度分析を作成して、パラメーターの最適な値を理解します。
これらのステップをモデルに追加した後、チームは最後のステップを実行できます。これは、シミュレーションの時間を 1 年に増やし、結果を分析することです。
このケース スタディは、AnyLogic Conference 2022 で、Meta のPeter Lopez、Mohammad Shariatmadari、Marcin Starzyk、およびLakhwinder Singh によって発表されました。
スライドはPDFでご覧いただけます。
