Clients d’AWS Trainium

Découvrez comment les clients utilisent AWS Trainium pour créer, former et affiner des modèles de deep learning.
  • Anthropic

    Chez Anthropic, des millions de personnes font confiance à Claude au quotidien pour leur travail. Nous annonçons deux avancées majeures avec AWS : tout d’abord, un nouveau « mode optimisé pour la latence » pour Claude 3.5 Haiku, qui s’exécute 60 % plus rapidement sur Trainium2 via Amazon Bedrock. Ensuite, le projet Rainier, un nouveau cluster composé de centaines de milliers de puces Trainium2 délivrant des centaines d’exaflops, soit plus de cinq fois la taille de notre cluster précédent. Le projet Rainier contribuera à dynamiser à la fois nos recherches et notre prochaine génération de mise à l’échelle. Pour nos clients, cela signifie plus d’intelligence, des prix plus bas et des vitesses plus rapides. Nous ne nous contentons pas de créer une IA plus rapide, nous créons une IA fiable qui se met à l’échelle.

    Tom Brown, directeur calcul chez Anthropic
  • Databricks

    Mosaic AI de Databricks permet aux organisations de créer et de déployer des systèmes d’agents de qualité. Il est construit de manière native au-dessus du lac de données, permettant aux clients de personnaliser facilement et en toute sécurité leurs modèles à l’aide de données d’entreprise et de fournir des résultats plus précis et spécifiques à un domaine. Grâce à la haute performance et à la rentabilité de Trainium, les clients peuvent mettre à l’échelle l’entraînement des modèles sur Mosaic AI à un faible coût. La disponibilité de Trainium2 constituera un avantage majeur pour Databricks et ses clients, car la demande pour Mosaic AI continue de croître dans tous les segments de clientèle et dans le monde entier. Databricks, l’une des plus grandes entreprises de données et d’IA au monde, prévoit d’utiliser TRN2 pour fournir de meilleurs résultats et réduire le coût total de possession jusqu’à 30 % pour ses clients.

    Naveen Rao, vice-président du service d’IA générative chez Databricks
  • poolside

    Chez Poolside, nous sommes prêts à construire un monde dans lequel l’IA sera à l’origine de la majorité des travaux à valeur économique et des progrès scientifiques. Nous pensons que le développement de logiciels sera la première capacité majeure des réseaux neuronaux à atteindre le niveau d’intelligence humaine, car c’est dans ce domaine que nous pouvons le mieux combiner les approches de recherche et d’apprentissage. Pour y parvenir, nous créons des modèles de base, une API et un assistant pour mettre la puissance de l’IA générative à la portée de vos développeurs (ou de leur clavier). L’infrastructure que nous utilisons pour créer et faire fonctionner nos produits est un élément essentiel de l’activation de cette technologie. Avec AWS Trainium2, nos clients seront en mesure d’étendre leur utilisation de Poolside à un rapport qualité/prix différent des autres accélérateurs d’IA. En outre, nous prévoyons de former les futurs modèles avec les serveurs Trainium2 UltraServer, avec des économies attendues de 40 % par rapport aux instances EC2 P5.

    Eiso Kant, directeur technique et cofondateur, de Poolside
  • Itaú Unibanco

    L’objectif d’Itaú Unibanco est d’améliorer la relation des gens par rapport à l’argent, en créant un impact positif sur leur vie tout en élargissant leurs possibilités de transformation. Chez Itaú Unibanco, nous pensons que chaque client est unique et nous nous attachons à répondre à leurs besoins grâce à des parcours numériques intuitifs, qui tirent parti de la puissance de l’IA pour s’adapter en permanence à leurs habitudes de consommation.

    Nous avons testé AWS Trainium et Inferentia pour diverses tâches, allant de l’inférence standard à des applications optimisées. Les performances de ces puces d’intelligence artificielle nous ont permis de franchir des étapes importantes dans notre recherche et notre développement. Pour les tâches d’inférence par lots et en ligne, nous avons constaté une amélioration du débit 7 fois supérieure à celle des GPU. Ces performances accrues favorisent l’expansion de nouveaux cas d’utilisation dans l’ensemble de l’organisation. La dernière génération de puces Trainium2 offre des fonctionnalités révolutionnaires à GenAI et ouvre la voie à l’innovation chez Itau.

    Vitor Azeka, responsable de la science des données chez Itaú Unibanco
  • NinjaTech AI

    Ninja est un agent d’IA complet pour une productivité illimitée : un simple abonnement, un accès illimité aux meilleurs modèles d’IA du monde ainsi qu’aux meilleures compétences d’IA telles que : l’écriture, le codage, le brainstorming, la génération d’images, la recherche en ligne. Ninja est une plateforme agentique qui propose « SuperAgent ». Cette plateforme utilise un mélange d’agents avec une précision de classe mondiale comparable (et dans certaines catégories, elle les surpasse) aux modèles de fondations pionnières. La technologie agentique de Ninja exige des accélérateurs les plus performants, afin d’offrir les expériences uniques en temps réel auxquelles nos clients s’attendent. 

    Nous sommes très enthousiastes à l’idée du lancement d’AWS TRN2, car nous pensons qu’il offrira les meilleures performances en matière de coût par jeton et la vitesse la plus rapide actuellement possible pour notre modèle de base Ninja LLM, basé sur Llama 3.1 405B. La faible latence de Trn2, associée à des prix compétitifs et à une disponibilité à la demande, est stupéfiante ; nous ne pouvons que nous réjouir de l’arrivée de Trn2 !

    Babak Pahlavan, fondateur et PDG de NinjaTech AI
  • Ricoh

    L’équipe de machine learning RICOH développe des solutions d’environnement de travail et des services de transformation numérique conçus pour gérer et optimiser le flux d’informations dans nos solutions d’entreprise.

    La migration vers les instances Trn1 a été facile et directe. Nous avons pu pré-entraîner notre paramètre 13B LLM en seulement 8 jours, en utilisant un cluster de 4 096 puces Trainium ! Après le succès obtenu avec notre petit modèle, nous avons optimisé un nouveau LLM plus grand basé sur Llama-3-Swallow-70B, et grâce à Trainium, nous avons pu réduire nos coûts de formation de 50 % et améliorer l’efficacité énergétique de 25 % par rapport à l’utilisation des dernières machines GPU d’AWS. Nous sommes ravis d’exploiter la dernière génération de puces AWS AI, Trainium2, pour continuer à fournir à nos clients les meilleures performances au moindre coût.

    Yoshiaki Umetsu, directeur, Centre de développement des technologies numériques, Ricoh
  • PyTorch

    Ce que j’ai le plus apprécié dans la bibliothèque d’inférence AWS Neuron NxD, c’est la fluidité avec laquelle elle s’intègre aux modèles PyTorch. L’approche de NxD est simple et conviviale. Notre équipe a pu intégrer les modèles PyTorch de HuggingFace avec un minimum de modifications de code en peu de temps. L’activation des fonctionnalités avancées telles que le traitement par lots en continu et le décodage spéculatif était simple. Cette facilité d’utilisation améliore la productivité des développeurs, ce qui permet aux équipes de se concentrer davantage sur l’innovation et moins sur les problèmes d’intégration.

    Hamid Shojanazeri, responsable de l’ingénierie des partenaires PyTorch chez Meta
  • Refact.ai

    Refact.ai propose des outils d’IA complets tels que la saisie automatique du code alimentée par la génération augmentée par extraction (RAG), fournissant des suggestions plus précises et un chat contextuel utilisant à la fois des modèles propriétaires et open source.

    Les clients ont constaté une augmentation de 20 % des performances et de 1,5 fois le nombre de jetons par dollar avec les instances EC2 Inf2 par rapport aux instances EC2 G5. Les fonctionnalités de réglage de Refact.ai améliorent encore la capacité de nos clients à comprendre et à s’adapter à la base de code et à l’environnement uniques de leur organisation. Nous sommes également ravis de proposer les fonctionnalités de Trainium2, qui permettront un traitement encore plus rapide et plus efficace de nos flux de travail. Cette technologie avancée permettra à nos clients d’accélérer leur processus de développement logiciel, en augmentant la productivité des développeurs tout en maintenant des normes de sécurité strictes pour leur base de code.

    Oleg Klimov PDG et fondateur de Refact.ai
  • Karakuri Inc.

    KARAKURI développe des outils d’IA pour améliorer l’efficacité du support client basé sur le Web et simplifier l’expérience client. Ces outils incluent des chatbots dotés de fonctions d’IA génératives, des outils de centralisation des FAQ et un outil de réponse aux e-mails, qui améliorent tous l’efficacité et la qualité du support client. Grâce à AWS Trainium, nous avons réussi à former KARAKURI LM 8x7B Chat v0.1. Pour les start-ups, comme la nôtre, nous devons optimiser le temps de création et les coûts nécessaires à l’entraînement des LLM. Avec le soutien d’AWS Trainium et de l’équipe AWS, nous avons pu développer un LLM de niveau pratique en peu de temps. De plus, en adoptant AWS Inferentia, nous avons pu créer un service d’inférence rapide et rentable. Nous sommes très enthousiastes à propos de Trainium2 car il permettra de révolutionner notre processus d’entraînement en réduisant notre temps d’entraînement par deux et en atteignant de nouveaux records en matière d’efficacité !

    Tomofumi Nakayama, cofondateur de Karakuri Inc.
  • Stockmark Inc.

    Avec pour mission de « réinventer le mécanisme de création de valeur et de faire progresser l’humanité », Stockmark aide de nombreuses entreprises à créer et à développer des activités innovantes en fournissant une technologie de pointe en matière de traitement du langage naturel. Le nouveau service d’analyse et de collecte de données de Stockmark, appelé Anews et SAT, est un service de structuration des données qui améliore considérablement les utilisations de l’IA générative en organisant toutes les formes d’informations stockées dans une organisation, nous ont obligés à repenser la façon dont nous avons construit et déployé des modèles pour soutenir ces produits. Avec 256 accélérateurs Trainium, nous avons développé et publié stockmark- 13b, un grand modèle de langage avec 13 milliards de paramètres, pré-entraîné à partir de zéro sur un corpus de jeux de données japonaises de 220 milliards de tokens. Les instances Trn1 nous ont aidés à réduire nos coûts de formation de 20 %. En nous appuyant sur Trainium, nous avons développé avec succès un LLM capable de répondre aux questions critiques des professionnels avec une précision et une rapidité sans précédent. Ce résultat est d’autant plus remarquable que les entreprises sont souvent confrontées à la difficulté d’obtenir des ressources informatiques adéquates pour le développement de modèles. Grâce à la rapidité impressionnante et à la réduction des coûts des instances Trn1, nous sommes impatients de découvrir les avantages supplémentaires que Trainium2 apportera à nos flux de travail et à nos clients.

    Kosuke Arima, directeur technique et cofondateur de Stockmark Inc.
  • Brave

    Brave est un navigateur et un moteur de recherche indépendants qui privilégient la protection de la vie privée et la sécurité des utilisateurs. Avec plus de 70 millions d’utilisateurs, nous proposons des protections de pointe qui rendent le Web plus sûr et plus convivial. Contrairement à d’autres plateformes qui ont abandonné les approches centrées sur l’utilisateur, Brave s’engage à donner la priorité à la confidentialité, à la sécurité et à la commodité. Les principales fonctionnalités incluent le blocage des scripts et des traceurs nuisibles, les résumés de pages assistés par l’IA et alimentés par des LLM, les services VPN intégrés, etc. Nous nous efforçons en permanence d’améliorer la rapidité et la rentabilité de nos services de recherche et de nos modèles d’IA. Pour y parvenir, nous sommes ravis de tirer parti des dernières fonctionnalités des puces d’IA AWS, notamment Trainium2, afin d’améliorer l’expérience utilisateur alors que nous nous adaptons à la gestion de milliards de requêtes de recherche par mois.

    Subu Sathyanarayana, vice-présidente de l’ingénierie chez Brave Software
  • Anyscale

    Anyscale est la société à l’origine de Ray, un moteur de calcul basé sur l’IA qui alimente le ML et les initiatives d’IA générative pour les entreprises. Grâce à la plateforme d’IA unifiée d’Anyscale pilotée par RayTurbo, les clients constatent un traitement des données pouvant être 4,5 fois plus rapide, une inférence par lots 10 fois moins coûteuse avec les LLM, une mise à l’échelle 5 fois plus rapide, une itération 12 fois plus rapide et des économies de coûts de 50 % pour l’inférence de modèles en ligne grâce à l’optimisation de l’utilisation des ressources.

    Chez Anyscale, nous nous engageons à fournir aux entreprises les meilleurs outils pour mettre à l’échelle les charges de travail liées à l’IA de manière efficace et rentable. Grâce à la prise en charge native des puces AWS Trainium et Inferentia, optimisée par notre environnement d’exécution RayTurbo, nos clients ont accès à des options performantes et rentables pour l’entraînement et la diffusion de modèle. Nous sommes désormais ravis d’unir nos forces à celles d’AWS sur Trainium2, offrant ainsi à nos clients de nouvelles opportunités d’innover rapidement et de proposer des expériences d’IA transformatrices hautement performantes à grande échelle.

    Robert Nishihara, cofondateur d’Anyscale
  • Datadog

    Datadog, est une plateforme d’observabilité et de sécurité pour les applications cloud, fournit AWS Trainium et Inferentia Monitoring aux clients afin d’optimiser les performances des modèles, d’améliorer l’efficacité et de réduire les coûts. L’intégration de Datadog fournit une visibilité complète sur les opérations de machine learning et les performances des puces sous-jacentes, permettant une résolution proactive des problèmes et une évolutivité fluide de l’infrastructure. Nous sommes ravis d’étendre notre partenariat avec AWS pour le lancement d’AWS Trainium2, qui aide les utilisateurs à réduire les coûts d’infrastructure de l’IA à hauteur de 50 % et à stimuler la performance de l’entraînement et du déploiement des modèles.

    Yrieix Garnier, vice-président de la société de produits, Datadog
  • Hugging Face

    Hugging Face est la principale plateforme ouverte pour les créateurs d’IA, avec plus de 2 millions de modèles, de jeux de données et d’applications d’IA partagés par une communauté de plus de 5 millions de chercheurs, de scientifiques des données, d’ingénieurs en machine learning et de développeurs de logiciels. Nous collaborons avec AWS depuis quelques années, ce qui a permis aux développeurs d’expérimenter plus facilement les avantages en matière de performances et de coûts d’AWS Inferentia et Trainium grâce à la bibliothèque open source Optimum Neuron, intégrée dans le point de terminaison d’inférence Hugging Face, et maintenant optimisée dans notre nouveau service d’auto-déploiement HUGS, disponible sur AWS Marketplace. Avec le lancement de Trainium2, nos utilisateurs pourront accéder à des performances encore plus élevées pour développer et déployer des modèles plus rapidement.

    Jeff Boudier, responsable des produits chez Hugging Face
  • Lightning AI

    Lightning AI, le créateur de PyTorch Lightning et de Lightning Studios, propose la plateforme de développement d’IA la plus intuitive et la plus complète pour l’IA d’entreprise. Lightning fournit des outils à code complet, à code réduit et sans code pour créer en toute rapidité des agents, des applications d’IA et des solutions d’IA générative. Conçu dans un souci de flexibilité, il fonctionne parfaitement sur votre cloud ou sur le nôtre en tirant parti de l’expertise et du soutien d’une communauté de développeurs forte de plus de 3 millions de personnes.

    Lightning prend désormais en charge de manière native les puces AWS AI, Trainium et Inferentia, qui sont intégrées à Lightning Studios et à nos outils open source tels que PyTorch Lightning, Fabric et LitServe. Cela permet aux utilisateurs de préformer, d’optimiser et de déployer à grande échelle, en optimisant les coûts, la disponibilité et les performances sans frais de commutation, et en profitant des avantages en matière de performances et de coûts des puces AWS AI, notamment la dernière génération de puces Trainium2, offrant des performances supérieures à moindre coût.

    Luca Antiga, directeur technique de Lightning AI
  • Domino Data Lab

    Domino orchestre tous les artefacts de science des données, y compris l’infrastructure, les données et les services sur AWS dans tous les environnements, complétant ainsi Amazon SageMaker par des fonctionnalités de gouvernance et de collaboration destinées à soutenir les équipes de science des données des entreprises. Domino est disponible via AWS Marketplace en tant qu’offre SaaS ou en mode autogéré.

    Les entreprises innovantes doivent équilibrer la complexité technique, les coûts et la gouvernance, en maîtrisant les options étendues de l’IA pour obtenir un avantage concurrentiel. Chez Domino, nous nous engageons à donner à nos clients l’accès à des technologies de pointe. Le calcul étant à l’origine de nombreuses innovations révolutionnaires, nous sommes fiers de permettre à nos clients d’accéder à Trainium2 afin qu’ils puissent former et déployer des modèles plus performants, à moindre coût et avec une meilleure efficacité énergétique.

    Nick Elprin, PDG et cofondateur de Domino Data Lab
  • Scale.ai

    Scale accélère le développement d’applications d’IA. Avec les solutions d’IA générative de Scale, nous aidons les entreprises à accélérer l’adoption de l’IA générative et à augmenter leur retour sur investissement en générant des données de haute qualité et en fournissant des solutions technologiques qui permettent à nos clients de créer, déployer et évaluer les meilleurs outils et applications d’IA. Plus tôt cette année, Scale s’est associée à AWS pour devenir son premier partenaire de personnalisation et d’évaluation de modèles. Alors que nous aidons nos clients à accélérer leur feuille de route en matière d’IA pour créer des solutions d’IA générative, nous proposerons AWS Trainium et Inferentia afin de réduire les coûts de formation et de déploiement de leurs modèles open source. Nous sommes ravis de constater qu’AWS Trainium2 permet de réaliser de nouvelles économies.

    Vijay Kaunamurthy, directeur technique de terrain
  • Money Forward, Inc.

    Money Forward, Inc. sert les entreprises et particuliers au moyen d'une plateforme financière ouverte et juste.

    Nous avons lancé un service de chatbot basé sur l’IA à grande échelle sur les instances Amazon EC2 Inf1 et avons réduit notre latence d’inférence de 97 % par rapport à des instances comparables basées sur GPU, tout en réduisant les coûts. Comme nous ajustons régulièrement les modèles de NLP personnalisés, il est également important de réduire les temps et les coûts d'entraînement des modèles. Sur la base de notre expérience acquise lors de la migration réussie de la charge de travail d’inférence sur les instances Inf1 et de nos premiers travaux sur les instances EC2 Trn1 basées sur AWS Trainium, nous pensons que les instances Trn1 apporteront une valeur ajoutée en termes d’amélioration des performances et des coûts du ML de bout en bout.

    Takuya Nakade, CTO, Money Forward, Inc.
  • Mimecast

    Magic est une société intégrée de produits et de recherche qui développe une IA qui se présente comme un collègue chargé de rendre le monde plus productif.

    Chez Mimecast, nous traitons environ 1,4 milliard d’e-mails chaque jour et les analysons pour détecter les risques potentiels. Il s’agit d’une tâche cruciale, et il est essentiel que nous remettions les e-mails en toute sécurité, sans risque et sans délai. Nos clients sont répartis dans plus de 100 pays et, en moyenne, chaque organisation utilise 4,9 services Mimecast. La plateforme inclut la sécurité avancée des e-mails, la sécurité pour la collaboration, l’archivage des e-mails, DMARC, la protection contre les risques internes et la sensibilisation à la sécurité avec une approche centrée sur l’humain. Nous ne voulons pas sacrifier la précision, c’est pourquoi nous avons créé nos modèles en interne pour atteindre des niveaux de précision et de rappel largement supérieurs à 90 %. Sur la base de ces exigences, les instances Inferentia 2 étaient la solution la plus appropriée. L’efficacité exceptionnelle d’Inferentia 2 nous permet d’atteindre une latence remarquable, en proposant des expériences en temps réel à nos clients. Les puces AWS AI combinées à SageMaker facilitent la mise à l’échelle horizontale pour répondre à notre demande en temps réel, et nous utilisons une politique de mise à l’échelle planifiée personnalisée pour étendre jusqu’à des centaines d’instances aux heures de pointe avec une surcharge de latence quasiment nulle.

    Felix Laumann, directeur de la science des données
  • Jax (Google)

    CACTUS propose une gamme de produits et de solutions destinés aux chercheurs et aux organisations qui améliorent la manière dont la recherche est financée, publiée, communiquée et découverte.

    AWS Neuron est conçu pour faciliter l’utilisation de frameworks populaires, comme JAX avec Trainium, tout en minimisant les modifications de code et sans avoir à être lié à des solutions spécifiques à un fournisseur. Google et AWS collaborent pour permettre aux clients de démarrer rapidement avec les instances Trn2 en utilisant JAX pour la formation et l’inférence à grande échelle grâce à son intégration native d’OpenXLA. Grâce à une collaboration vaste et à la disponibilité de Trainium2, Google s’attend à une adoption accrue de Jax, une étape importante pour l’ensemble de la communauté ML.

    Bill Jia, vice-président de l’ingénierie chez Google
  • Watashiha

    Watashiha propose un service de chatbot intelligent innovant et interactif, appelé « OGIRI AI », qui intègre l'humour pour donner une réponse amusante et instantanée à une question.

    Nous utilisons de grands modèles de langage pour intégrer l’humour et offrir une expérience conversationnelle plus pertinente à nos clients sur nos services d’IA. Cela nous oblige à pré-entraîner et à ajuster fréquemment ces modèles. Nous avons pré-entraîné un modèle japonais basé sur GPT sur l'instance EC2 Trn1.32xlarge, en tirant parti du tenseur et du parallélisme des données. L'entraînement a été achevé en 28 jours avec une réduction des coûts de 33 % par rapport à notre ancienne infrastructure basée sur des GPU. Alors que la complexité de nos modèles continue de croître rapidement, nous attendons avec impatience les instances Trn1n, qui disposent de deux fois plus de bande passante du réseau que les Trn1, afin d’accélérer l’entraînement des modèles plus volumineux.

    Yohei Kobashi, CTO, Watashiha, K.K.
  • Amazon

    Le moteur de recherche de produits d'Amazon indexe des milliards de produits, répond à des milliards de requêtes de clients chaque jour et est l'un des services les plus utilisés au monde.

    Nous entraînons de grands modèles de langage (LLM) multimodaux (texte et image), multilingues, multirégions, préentraînés sur de multiples tâches et couvrant plusieurs entités (produits, requêtes, marques, avis, etc.) afin d’améliorer l’expérience d’achat des clients. Les instances Trn1 constituent un moyen plus durable d'entraîner des LLM en fournissant le meilleur rapport performance/watt comparé aux autres solutions de machine learning accélérées et nous offrent des performances élevées au moindre coût. Nous prévoyons d’explorer le nouveau type de données FP8 configurable et l’arrondissement stochastique accéléré hardware afin d’améliorer encore l’efficacité de notre entraînement et notre vitesse de développement.

    Trishul Chilimbi, vice-président, Amazon Search
  • Meta

    Ce que j’ai le plus apprécié dans la bibliothèque d’inférence AWS Neuron NxD, c’est la fluidité avec laquelle elle s’intègre aux modèles PyTorch. L’approche de NxD est simple et conviviale. Notre équipe a pu intégrer les modèles PyTorch de HuggingFace avec un minimum de modifications de code en peu de temps. L’activation des fonctionnalités avancées telles que le traitement par lots en continu et le décodage spéculatif était simple. Cette facilité d’utilisation améliore la productivité des développeurs, ce qui permet aux équipes de se concentrer davantage sur l’innovation et moins sur les problèmes d’intégration.

    Hamid Shojanazeri, responsable de l’ingénierie des partenaires PyTorch chez Meta