Ne laissez pas le stockage devenir le principal goulot d'étranglement dans la formation des modèles

Il a été dit que les entreprises technologiques se bousculent pour les GPU ou sont sur le point de les acquérir. En avril, le PDG de Tesla, Elon Musk, a acheté 10 000 GPU et a déclaré que la société continuerait d'acheter une grande quantité de GPU à NVIDIA. Du côté des entreprises, le personnel informatique s’efforce également de garantir que les GPU soient constamment utilisés afin de maximiser le retour sur investissement. Cependant, certaines entreprises peuvent constater que, à mesure que le nombre de GPU augmente, l'inactivité des GPU devient plus grave.

Si l’histoire nous a appris quelque chose sur le calcul haute performance (HPC), c’est que le stockage et la mise en réseau ne doivent pas être sacrifiés au détriment d’une trop grande concentration sur le calcul. Si le stockage ne peut pas transférer efficacement les données vers les unités de calcul, même si vous disposez du plus grand nombre de GPU au monde, vous n'obtiendrez pas une efficacité optimale.

Selon Mike Matchett, analyste chez Small World Big Data, des modèles plus petits peuvent être exécutés en mémoire (RAM), permettant ainsi de se concentrer davantage sur le calcul. Cependant, les modèles plus grands comme ChatGPT avec des milliards de nœuds ne peuvent pas être stockés en mémoire en raison de leur coût élevé.

« Vous ne pouvez pas stocker des milliards de nœuds en mémoire, le stockage devient donc encore plus important », explique Matchett. Malheureusement, le stockage des données est souvent négligé lors du processus de planification.

De manière générale, quel que soit le cas d'utilisation, il existe quatre points communs dans le processus de formation des modèles :

1. Formation sur modèle
2. Application d'inférence
3. Stockage des données
4. Calcul accéléré

Lors de la création et du déploiement de modèles, la plupart des exigences donnent la priorité à des environnements de preuve de concept (POC) ou de test rapides pour lancer la formation des modèles, les besoins de stockage de données n'étant pas pris en compte au premier plan.

Cependant, le défi réside dans le fait que le déploiement de la formation ou de l’inférence peut durer des mois, voire des années. De nombreuses entreprises augmentent rapidement la taille de leurs modèles pendant cette période, et l'infrastructure doit se développer pour s'adapter à la croissance des modèles et des ensembles de données.

Les recherches de Google sur des millions de charges de travail de formation ML révèlent qu'en moyenne 30 % du temps de formation est consacré au pipeline de données d'entrée. Même si les recherches antérieures se sont concentrées sur l'optimisation des GPU pour accélérer la formation, de nombreux défis restent encore à relever dans l'optimisation des différentes parties du pipeline de données. Lorsque vous disposez d’une puissance de calcul importante, le véritable goulot d’étranglement réside dans la rapidité avec laquelle vous pouvez introduire des données dans les calculs pour obtenir des résultats.

Plus précisément, les défis liés au stockage et à la gestion des données nécessitent de planifier la croissance des données, ce qui vous permet d'extraire continuellement la valeur des données au fur et à mesure de votre progression, en particulier lorsque vous vous aventurez dans des cas d'utilisation plus avancés tels que l'apprentissage profond et les réseaux neuronaux, qui imposent des exigences plus élevées en matière de stockage et de gestion des données. stockage en termes de capacité, de performances et d’évolutivité.

En particulier:

Évolutivité
L’apprentissage automatique nécessite la gestion de grandes quantités de données et, à mesure que le volume de données augmente, la précision des modèles s’améliore également. Cela signifie que les entreprises doivent collecter et stocker davantage de données chaque jour. Lorsque le stockage ne peut pas évoluer, les charges de travail gourmandes en données créent des goulots d'étranglement, limitant les performances et entraînant des temps d'inactivité coûteux du GPU.

Flexibilité
Une prise en charge flexible de plusieurs protocoles (notamment NFS, SMB, HTTP, FTP, HDFS et S3) est nécessaire pour répondre aux besoins des différents systèmes, plutôt que de se limiter à un seul type d'environnement.

Latence
La latence d'E/S est essentielle pour la création et l'utilisation de modèles, car les données sont lues et relues plusieurs fois. La réduction de la latence d’E/S peut raccourcir le temps de formation des modèles de plusieurs jours ou mois. Un développement de modèle plus rapide se traduit directement par de plus grands avantages commerciaux.

Débit
Le débit des systèmes de stockage est crucial pour une formation efficace des modèles. Les processus de formation impliquent de grandes quantités de données, généralement en téraoctets par heure.

Accès parallèle
Pour atteindre un débit élevé, les modèles de formation divisent les activités en plusieurs tâches parallèles. Cela signifie souvent que les algorithmes d’apprentissage automatique accèdent simultanément aux mêmes fichiers à partir de plusieurs processus (potentiellement sur plusieurs serveurs physiques). Le système de stockage doit gérer des demandes simultanées sans compromettre les performances.

Avec ses capacités exceptionnelles en matière de faible latence, de débit élevé et d’E/S parallèles à grande échelle, Dell PowerScale constitue un complément de stockage idéal à l’informatique accélérée par GPU. PowerScale réduit efficacement le temps requis pour les modèles d'analyse qui entraînent et testent des ensembles de données de plusieurs téraoctets. Dans le stockage 100 % Flash PowerScale, la bande passante est multipliée par 18, éliminant les goulots d'étranglement d'E/S, et peut être ajoutée aux clusters Isilon existants pour accélérer et libérer la valeur de grandes quantités de données non structurées.

De plus, les capacités d'accès multiprotocoles de PowerScale offrent une flexibilité illimitée pour l'exécution des charges de travail, permettant aux données d'être stockées à l'aide d'un protocole et d'y accéder via un autre. Plus précisément, les fonctionnalités puissantes, la flexibilité, l'évolutivité et les fonctionnalités de niveau entreprise de la plate-forme PowerScale aident à relever les défis suivants :

- Accélérez l'innovation jusqu'à 2,7 fois, réduisant ainsi le cycle de formation des modèles.

- Éliminez les goulots d'étranglement d'E/S et fournissez une formation et une validation plus rapides des modèles, une précision améliorée des modèles, une productivité améliorée de la science des données et un retour sur investissement informatique maximisé en tirant parti des fonctionnalités de niveau entreprise, des hautes performances, de la simultanéité et de l'évolutivité. Améliorez la précision des modèles avec des ensembles de données plus profonds et à plus haute résolution en exploitant jusqu'à 119 Po de capacité de stockage effective dans un seul cluster.

- Réalisez un déploiement à grande échelle en démarrant petit et en faisant évoluer indépendamment le calcul et le stockage, en offrant des options robustes de protection des données et de sécurité.

- Améliorez la productivité de la science des données grâce à des analyses sur place et des solutions pré-validées pour des déploiements plus rapides et à faible risque.

- Tirer parti de conceptions éprouvées basées sur les meilleures technologies du marché, notamment l'accélération GPU NVIDIA et les architectures de référence avec les systèmes NVIDIA DGX. Les hautes performances et la simultanéité de PowerScale répondent aux exigences de performances de stockage à chaque étape de l'apprentissage automatique, de l'acquisition et de la préparation des données à la formation et à l'inférence de modèles. Avec le système d'exploitation OneFS, tous les nœuds peuvent fonctionner de manière transparente au sein du même cluster piloté par OneFS, avec des fonctionnalités de niveau entreprise telles que la gestion des performances, la gestion des données, la sécurité et la protection des données, permettant une réalisation plus rapide de la formation et de la validation des modèles pour les entreprises.


Heure de publication : 03 juillet 2023