Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Qu'est-ce que c'est AWS Glue ?
AWS Glue est un service d'intégration de données sans serveur qui permet aux utilisateurs d'outils d'analyse de découvrir, de préparer, de déplacer et d'intégrer facilement des données provenant de sources multiples. Vous pouvez l'utiliser pour l'analyse, le machine learning et le développement d'applications. Il inclut également des outils de productivité et d'exploitation des données supplémentaires pour la création, l'exécution de tâches et la mise en œuvre de flux de travail.
Avec AWS Glue, vous pouvez découvrir et vous connecter à plus de 70 sources de données différentes et gérer vos données dans un catalogue de données centralisé. Vous pouvez créer, exécuter et surveiller visuellement des pipelines d'extraction, de transformation et de chargement (ETL) pour charger des données dans vos lacs de données. Vous pouvez également rechercher et interroger immédiatement des données cataloguées à l'aide d'Amazon Athena, Amazon et EMR Amazon Redshift Spectrum.
AWS Glue consolide les principales fonctionnalités d'intégration de données en un seul service. Il s'agit notamment de la découverte des données, de la modernitéETL, du nettoyage, de la transformation et du catalogage centralisé. Il est également sans serveur, ce qui signifie qu'il n'y a aucune infrastructure à gérer. Grâce à une prise en charge flexible pour toutes les charges de travailETL, telles queELT, et le streaming dans un seul service, AWS Glue prend en charge les utilisateurs pour différents types de charges de travail et types d'utilisateurs.
En outre, AWS Glue facilite l'intégration des données au sein de votre architecture. Il s'intègre aux services AWS d'analyse et aux lacs de données Amazon S3. AWS Glue propose des interfaces d'intégration et des outils de création de tâches faciles à utiliser pour tous les utilisateurs, des développeurs aux utilisateurs professionnels, avec des solutions adaptées à des compétences techniques variées.
Grâce à la capacité de s'adapter à la demande, AWS Glue vous aide à vous concentrer sur les activités à forte valeur ajoutée qui maximisent la valeur de vos données. Il s'adapte à toutes les tailles de données et prend en charge tous les types de données et toutes les variances de schéma. Pour accroître l'agilité et optimiser les coûts, AWS Glue fournit une haute disponibilité intégrée et une facturation pay-as-you automatique.
Pour plus d'informations sur les tarifs, voir AWS Glue tarification
AWS Glue Studio
AWS Glue Studio est une interface graphique qui facilite la création, l'exécution et le suivi des tâches d'intégration de données dans AWS Glue. Vous pouvez composer visuellement des flux de travail de transformation des données et les exécuter de manière fluide sur le moteur sans serveur basé sur Apache Spark dans ETL AWS Glue.
Avec AWS Glue Studio, vous pouvez créer et gérer des tâches qui collectent, transforment et nettoient les données. Vous pouvez également utiliser AWS Glue Studio pour résoudre les problèmes et modifier les scripts de travail.
Rubriques
AWS Glue fonctionnalités
AWS Glue les fonctionnalités se répartissent en trois grandes catégories :
-
Découvrez et organisez les données
-
Transformez, préparez et nettoyez les données pour les analyser
-
Créez et surveillez des pipelines de données
Découverte et organisation des données
-
Unifiez et recherchez dans plusieurs banques de données : stockez, indexez et recherchez dans plusieurs sources et récepteurs de données en cataloguant toutes vos données. AWS
-
Découverte automatique des données — Utilisation AWS Glue des robots d'exploration pour déduire automatiquement les informations du schéma et les intégrer dans votre. AWS Glue Data Catalog
-
Gestion des schémas et des autorisations— Validez et contrôlez l'accès à vos bases de données et tables.
-
Connectez-vous à une grande variété de sources de données : exploitez plusieurs sources de données, sur site et en ligne AWS, en utilisant AWS Glue connexions pour créer votre lac de données.
Transformez, préparez, et nettoyez les données afin de les analyser
-
Transformez visuellement les données à l'aide d'une interface de canevas de tâches : définissez votre ETL processus dans l'éditeur visuel de tâches et générez automatiquement le code pour extraire, transformer et charger vos données.
-
Créez des ETL pipelines complexes grâce à une planification simple des tâches — Invoke AWS Glue des emplois selon un calendrier, à la demande ou en fonction d'un événement.
-
Nettoyez et transformez les données de streaming en transit— Permettez une consommation continue des données, nettoyez-les et transformez-les en transit. Cette démarche le rend disponible afin de l’analyser en quelques secondes dans votre magasin de données cible.
-
Dédupliquez et nettoyez les données grâce au machine learning intégré— Nettoyez et préparez vos données pour analyse sans devenir un expert en machine learning en utilisant le
FindMatches
fonction. Cette fonctionnalité permet la déduplication ainsi que la recherche des enregistrements ne correspondant pas parfaitement les uns aux autres. -
Carnets de notes de travail intégrés — AWS Glue les blocs-notes de travail fournissent des blocs-notes sans serveur avec une configuration minimale dans AWS Glue afin que vous puissiez démarrer rapidement.
-
Modifier, déboguer et tester le ETL code — Avec AWS Glue sessions interactives, vous pouvez explorer et préparer des données de manière interactive. Vous pouvez explorer, expérimenter et traiter les données de manière interactive à l'aide du carnet IDE ou du bloc-notes de votre choix.
-
Définissez, détectez et corrigez les données sensibles : AWS Glue la détection des données sensibles vous permet de définir, d'identifier et de traiter les données sensibles dans votre pipeline de données et dans votre lac de données.
Création et surveillance des pipelines de données
-
Adaptation automatique en fonction de la charge— Augmentez et diminuez les ressources de manière dynamique en fonction de la charge Cette adaptation affecte les travailleurs à des emplois uniquement en cas de nécessité.
-
Automatisez les tâches à l'aide de déclencheurs basés sur des événements : lancez des robots d'exploration ou AWS Glue des tâches avec des déclencheurs basés sur des événements, et concevez une chaîne de tâches dépendantes et de robots d'exploration.
-
Exécuter et surveiller les tâches — Exécuter AWS Glue jobs avec le moteur de votre choix, Spark ou Ray. Surveillez-les à l'aide d'outils de surveillance automatisés, AWS Glue Job Run Insights, et AWS CloudTrail. Améliorez votre surveillance des tâches soutenues par Spark avec l'interface utilisateur Apache Spark.
-
Définissez des flux de travail ETL et des activités d'intégration : définissez des flux de travail ETL et des activités d'intégration pour plusieurs robots d'exploration, tâches et déclencheurs.
En savoir plus sur les innovations dans AWS Glue
Découvrez les dernières innovations AWS Glue et découvrez comment les clients les utilisent AWS Glue pour permettre la préparation des données en libre-service au sein de leur organisation.
Découvrez comment les clients évoluent AWS Glue au-delà de la configuration traditionnelle et comment ils se configurent AWS Glue pour le suivi des tâches et les performances.
Démarrage avec AWS Glue
La lecture de ces sections est indispensable:
Accès AWS Glue
Vous pouvez créer, consulter et gérer votre AWS Glue tâches utilisant les interfaces suivantes :
-
AWS Glue console — Fournit une interface Web vous permettant de créer, de visualiser et de gérer votre AWS Glue emplois. Pour accéder à la console, voir AWS Glue
. -
AWS Glue Studio— Fournit une interface graphique vous permettant de créer et de modifier votre AWS Glue emplois visuels. Pour de plus amples informations, veuillez consulter Création d'ETLemplois visuels avec AWS Glue Studio.
-
AWS Glue section de la AWS CLI référence — Fournit des AWS CLI commandes que vous pouvez utiliser avec AWS Glue. Pour plus d'informations, consultez la section AWS CLI Référence pour AWS Glue.
-
AWS Glue API— Fournit une API référence complète pour les développeurs. Pour plus d’informations, consultez .AWS Glue API.
Services connexes
Utilisateurs de AWS Glue utilisez également :
-
AWS Lake Formation— Un service qui est une couche d'autorisation qui fournit un contrôle d'accès précis aux ressources du AWS Glue Data Catalog.
-
AWS Glue DataBrew— Outil visuel de préparation des données que vous pouvez utiliser pour nettoyer et normaliser les données sans écrire de code.