Un centre de données hyperscale (HDC) est essentiellement un bâtiment massif rempli de milliers de serveurs, de rayonnages et d'équipements réseau, souvent de plusieurs terrains de football. Meta en possède beaucoup sur son campus et utilise un certain nombre de configurations pour eux, notamment le design en forme de H et en forme de I.
Problème
Lors de la conception d'un nouveau HDC, Meta devait s'assurer qu'il fonctionnerait bien sans retards ni goulots d'étranglement dans toutes les fonctions connectées. Un élément important à prendre en compte était la manière d'améliorer les flux de travail liés aux rayonnages dans le bâtiment.
Il existe trois types de flux de travail associés aux rayonnages, mais dans cette étude de cas, l'accent est mis sur la « réception ». Ce flux de travail se produit lorsqu'un centre de données s’apprête à être mis en ligne et que des rayonnages sont en train d’être livrés dans ce centre de données en particulier.
Les équipes qui prennent en charge les flux de travail sont des ressources hautement qualifiées. Ainsi, ces flux de travail, la façon de mise en place et la planification le travail doivent être optimisés.
Cependant, Meta ne disposait pas d'un bon processus pour visualiser et simuler les contraintes opérationnelles dans les configurations de HDC et, par conséquent, ne pouvait pas comprendre les goulots d'étranglement et les capacités de débit.
Solution
Pour mieux comprendre les exigences d'un nouveau HDC, Meta a décidé de mettre en place une approche de modélisation. La première étape a consisté à créer une visualisation 3D pour un modèle basé sur le comportement des agent afin de faciliter la validation des données de flux de rayonnages et d'accélérer les flux de travail des équipes et l'apprentissage des ressources. Ainsi, ils pourraient voir l'ensemble du flux de travail dans l'espace où il va se produire. Tout cela a été fait à l'avance, avant la construction du HDC.
La visualisation 3D a donné un aperçu des paramètres nécessaires à la mise en place du modèle de simulation à événements discrets, ainsi qu'à leur optimisation.
Pour la simulation d'événements discrets, un certain nombre d'hypothèses ont été nécessaires :
- Le HDC est un objet avec plusieurs paramètres dans la plate-forme AnyLogic et le débit d'une variété de types de HDC peut être prédit.
- Le processus à modéliser est la réception en rayonnages avec plusieurs étapes réparties entre les différentes équipes (réception et positionnement – équipe 1, mise sous tension – équipe 2, câblage – équipe 3, approvisionnement – automatisé).
- La simulation représente une semaine et le débit est mesuré en pourcentage du total.
- Le nombre de ressources dans chaque équipe est configurable et l'utilisation est définie entre 60 et 80 %.
- Les périodes de travail commencent à 8 h et les heures supplémentaires sont autorisées.
- Les processus de l'équipe 1 comprennent le déchargement du camion, le déballage et formalités administratives, la file d'attente à quai, les parcours dans les salles de données, la capacité des ascenseurs, le 1er ou le 2e étage (chance 50/50).
- Distribution normale pour l'équipe 2 et l'équipe 3.
- Le provisionnement comporte deux étapes : le commutateur et le serveur, les deux étant réglés sur 80 % (ce qui signifie que 20 % du temps, ils ont besoin de retravailler).
L'une des nombreuses fonctionnalités intéressantes d'AnyLogic est la possibilité de développer une interface utilisateur pour le modèle, puis de modifier les paramètres et de voir les résultats. Meta a créé une interface utilisateur pour son modèle de réception où chaque utilisateur pouvait modifier les paramètres de chaque équipe, par exemple, le nombre de personnes, ajouter des heures supplémentaires, modifier le temps de déchargement, etc.
Résultats
Simulation par événements discrets
À l'aide d'une simulation par événements discrets, Meta a exécuté le modèle avec des paramètres réguliers. Le débit cible était de 100 %, mais ils n'ont atteint que 40 % avec une durée moyenne de 3,7 jours. Des goulots d'étranglement ont été identifiés au niveau du câblage et du positionnement dans le processus de rayonnage.
Expérience d'optimisation
Afin de résoudre ces problèmes, il était nécessaire d'identifier la valeur optimisée pour chaque paramètre. Cela a été fait à l'aide d'une expérience d'optimisation, dans le but de maximiser le débit.
Les résultats de l'optimisation sont présentés dans les tableaux ci-dessous. Sur la base de ces résultats, l'équipe a pu exécuter à nouveau le modèle et atteindre un débit de 92 % avec une durée moyenne de 2,2 jours. Il s'agit d'une réduction de 1,5 jour par rapport au modèle initial. En conséquence, plus de rayonnages pourraient être reçus par semaine.
De plus, il n'y avait pas de goulots d'étranglement et la seule raison pour laquelle il n'était pas à 100 % était que le délai était fixé à une semaine et que l’ approvisionnement (processus automatisé) ne pouvait pas être terminé dans ce délai.
Cependant, le fait d'avoir un modèle optimisé ne dit pas toute l'histoire car, dans le monde réel, il existe un élément d'incertitude.
Expérience de Monte-Carlo
Meta l'a compris et a décidé d'utiliser une expérience de Monte-Carlo, qui est une méthode stochastique utilisant un échantillon aléatoire d'entrées pour créer une sortie pour le modèle.
L'exécution de l'expérimentation de Monte-Carlo un certain nombre de fois donne une distribution de sortie, et au lieu d'un seul scénario, vous pouvez avoir plusieurs scénarios à la fin.
Meta a exécuté le modèle 10 000 fois et les résultats peuvent être vus dans l'illustration ci-dessous. L'axe des abscisses est le débit et l'axe des ordonnées est la probabilité de ce débit. Le graphique montre que 40 % du temps, le débit sera de 90 %. D'autres options sont également proposées, telles que 20 % de chances que le débit soit de 30 %. Ces résultats montrent qu'un débit de 90 % n'est pas garanti, mais qu'il s'agit du résultat le plus probable du modèle.
Étapes suivantes
- Inclure des processus de redistribution et d'actualisation des rayonnages dans le modèle.
- Ajoutez plus de détails aux étapes de mise sous tension, de câblage et d'approvisionnement.
- Créer une analyse de sensibilité du modèle pour comprendre les meilleures valeurs pour les paramètres.
Après avoir ajouté ces étapes au modèle, l'équipe peut effectuer la dernière étape, qui consiste à augmenter la durée de la simulation à un an et à analyser les résultats.
L'étude de cas a été présentée par Peter Lopez, Mohammad Shariatmadari, Marcin Starzyk et Lakhwinder Singh, de Meta, lors de la conférence AnyLogic 2022.
Les diapositives sont disponibles au format PDF.