Actualités - Ne laissez pas le stockage devenir le principal goulot d'étranglement de la formation des modèles

On dit que les entreprises technologiques se bousculent pour les GPU ou sont sur la voie de les acquérir.En avril, le PDG de Tesla, Elon Musk, a acheté 10 000 GPU et a déclaré que la société continuerait à acheter une grande quantité de GPU à NVIDIA.Du côté de l'entreprise, le personnel informatique met également tout en œuvre pour s'assurer que les GPU sont constamment utilisés pour maximiser le retour sur investissement.Cependant, certaines entreprises peuvent constater que lorsque le nombre de GPU augmente, l'inactivité du GPU devient plus grave.

Si l'histoire nous a appris quelque chose sur le calcul haute performance (HPC), c'est que le stockage et la mise en réseau ne doivent pas être sacrifiés au détriment d'une trop grande concentration sur le calcul.Si le stockage ne peut pas transférer efficacement les données vers les unités de calcul, même si vous disposez du plus grand nombre de GPU au monde, vous n'obtiendrez pas une efficacité optimale.

Selon Mike Matchett, analyste chez Small World Big Data, des modèles plus petits peuvent être exécutés en mémoire (RAM), ce qui permet de se concentrer davantage sur le calcul.Cependant, des modèles plus grands comme ChatGPT avec des milliards de nœuds ne peuvent pas être stockés en mémoire en raison du coût élevé.

« Vous ne pouvez pas stocker des milliards de nœuds en mémoire, le stockage devient donc encore plus important », déclare Matchett.Malheureusement, le stockage des données est souvent négligé lors du processus de planification.

En général, quel que soit le cas d'utilisation, il existe quatre points communs dans le processus de formation du modèle :

1. Formation modèle
2. Application d'inférence
3. Stockage des données
4. Calcul accéléré

Lors de la création et du déploiement de modèles, la plupart des exigences donnent la priorité à une preuve de concept rapide (POC) ou à des environnements de test pour lancer la formation du modèle, les besoins de stockage de données n'étant pas pris en compte.

Cependant, le défi réside dans le fait que la formation ou le déploiement de l'inférence peut durer des mois, voire des années.De nombreuses entreprises augmentent rapidement la taille de leurs modèles pendant cette période, et l'infrastructure doit s'étendre pour s'adapter à la croissance des modèles et des ensembles de données.

Les recherches de Google sur des millions de charges de travail de formation ML révèlent qu'en moyenne 30 % du temps de formation est consacré au pipeline de données d'entrée.Alors que les recherches antérieures se sont concentrées sur l'optimisation des GPU pour accélérer la formation, de nombreux défis subsistent dans l'optimisation de diverses parties du pipeline de données.Lorsque vous disposez d'une puissance de calcul importante, le véritable goulot d'étranglement est la rapidité avec laquelle vous pouvez introduire des données dans les calculs pour obtenir des résultats.

Plus précisément, les défis liés au stockage et à la gestion des données nécessitent une planification de la croissance des données, vous permettant d'extraire en continu la valeur des données au fur et à mesure de votre progression, en particulier lorsque vous vous aventurez dans des cas d'utilisation plus avancés tels que l'apprentissage en profondeur et les réseaux de neurones, qui imposent des exigences plus élevées sur stockage en termes de capacité, de performances et d'évolutivité.

En particulier:

Évolutivité
L'apprentissage automatique nécessite de gérer de grandes quantités de données, et à mesure que le volume de données augmente, la précision des modèles s'améliore également.Cela signifie que les entreprises doivent collecter et stocker plus de données chaque jour.Lorsque le stockage ne peut pas évoluer, les charges de travail gourmandes en données créent des goulots d'étranglement, limitant les performances et entraînant des temps d'inactivité coûteux du GPU.

La flexibilité
Une prise en charge flexible de plusieurs protocoles (notamment NFS, SMB, HTTP, FTP, HDFS et S3) est nécessaire pour répondre aux besoins de différents systèmes, plutôt que d'être limité à un seul type d'environnement.

Latence
La latence d'E/S est essentielle pour la création et l'utilisation de modèles, car les données sont lues et relues plusieurs fois.La réduction de la latence d'E/S peut raccourcir le temps d'apprentissage des modèles de plusieurs jours ou mois.Un développement de modèle plus rapide se traduit directement par de plus grands avantages commerciaux.

Débit
Le débit des systèmes de stockage est crucial pour une formation efficace des modèles.Les processus de formation impliquent de grandes quantités de données, généralement en téraoctets par heure.

Accès parallèle
Pour atteindre un débit élevé, les modèles de formation divisent les activités en plusieurs tâches parallèles.Cela signifie souvent que les algorithmes d'apprentissage automatique accèdent simultanément aux mêmes fichiers à partir de plusieurs processus (potentiellement sur plusieurs serveurs physiques).Le système de stockage doit gérer des demandes simultanées sans compromettre les performances.

Avec ses capacités exceptionnelles de faible latence, de débit élevé et d'E/S parallèles à grande échelle, Dell PowerScale est un complément de stockage idéal pour l'informatique accélérée par GPU.PowerScale réduit efficacement le temps requis pour les modèles d'analyse qui entraînent et testent des ensembles de données de plusieurs téraoctets.Dans le stockage 100 % flash PowerScale, la bande passante est multipliée par 18, éliminant les goulots d'étranglement d'E/S, et peut être ajoutée aux clusters Isilon existants pour accélérer et libérer la valeur de grandes quantités de données non structurées.

De plus, les capacités d'accès multiprotocole de PowerScale offrent une flexibilité illimitée pour l'exécution des charges de travail, permettant aux données d'être stockées à l'aide d'un protocole et accessibles à l'aide d'un autre.Plus précisément, les fonctionnalités puissantes, la flexibilité, l'évolutivité et les fonctionnalités de niveau entreprise de la plate-forme PowerScale aident à relever les défis suivants :

- Accélérez l'innovation jusqu'à 2,7 fois, en réduisant le cycle de formation du modèle.

- Éliminez les goulots d'étranglement d'E/S et offrez une formation et une validation plus rapides des modèles, une précision améliorée des modèles, une productivité accrue de la science des données et un retour sur investissement optimisé en informatique en tirant parti des fonctionnalités de niveau entreprise, des performances élevées, de la simultanéité et de l'évolutivité.Améliorez la précision du modèle avec des ensembles de données plus profonds et à plus haute résolution en exploitant jusqu'à 119 Po de capacité de stockage effective dans un seul cluster.

- Réalisez un déploiement à grande échelle en démarrant petit et en évoluant indépendamment le calcul et le stockage, en offrant des options de protection et de sécurité des données robustes.

- Améliorez la productivité de la science des données avec des analyses sur place et des solutions pré-validées pour des déploiements plus rapides et à faible risque.

- Tirer parti de conceptions éprouvées basées sur les meilleures technologies, y compris l'accélération GPU NVIDIA et les architectures de référence avec les systèmes NVIDIA DGX.Les hautes performances et la simultanéité de PowerScale répondent aux exigences de performances de stockage à chaque étape de l'apprentissage automatique, de l'acquisition et de la préparation des données à la formation et à l'inférence des modèles.Avec le système d'exploitation OneFS, tous les nœuds peuvent fonctionner de manière transparente au sein du même cluster piloté par OneFS, avec des fonctionnalités de niveau entreprise telles que la gestion des performances, la gestion des données, la sécurité et la protection des données, permettant une exécution plus rapide de la formation et de la validation des modèles pour les entreprises.

Heure de publication : 03 juillet 2023