¿Qué es AWS Lake Formation?
Bienvenido a la Guía para desarrolladores de AWS SDK for JavaScript.
AWS Lake Formation le ayuda a gestionar, proteger y compartir datos a nivel mundial de forma centralizada para el análisis y el machine learning. Con Lake Formation, puede administrar el control de acceso detallado para los datos de su lago de datos en Amazon Simple Storage Service (Amazon S3) y sus metadatos en AWS Glue Data Catalog.
Lake Formation proporciona su propio modelo de permisos que aumenta el modelo de permisos de IAM. El modelo de permisos de Lake Formation permite un acceso específico a los datos almacenados en los lagos de datos mediante un sencillo mecanismo de concesión o revocación, muy similar al de un sistema de gestión de bases de datos relacionales (RDBMS). Los permisos de Lake Formation se aplican mediante controles granulares a nivel de columna, fila y celda en todos los servicios de análisis de AWS y machine learning, incluidos Amazon Athena, Amazon QuickSight, Amazon Redshift Spectrum, Amazon EMR y AWS Glue.
El modo de acceso híbrido de Lake Formation para AWS Glue Data Catalog le permite proteger los datos catalogados y acceder a ellos utilizando tanto permisos de Lake Formation como políticas de permisos de IAM para Amazon S3 y acciones de AWS Glue. Con el modo de acceso híbrido, los administradores de datos pueden incorporar los permisos de Lake Formation de forma selectiva e incremental, centrándose en un caso práctico del lago de datos cada vez.
Lake Formation también le permite compartir datos interna y externamente a través de múltiples Cuentas de AWS, organizaciones de AWS o directamente con las entidades principales de IAM en otra cuenta proporcionando un acceso específico a los metadatos de AWS Glue Data Catalog y los datos subyacentes.
Temas
Características de la Lake Formation
Lake Formation le ayuda a descomponer los silos de datos y a combinar diferentes tipos de datos estructurados y no estructurados en un repositorio centralizado. En primer lugar, identifique los almacenes de datos existentes en Amazon S3 o en bases de datos relacionales y NoSQL, y traslade los datos a su lago de datos. A continuación, rastree, catalogue y prepare los datos para su análisis. Después, proporcione a sus usuarios un acceso seguro de autoservicio a los datos a través de los servicios de análisis que elijan.
Ingesta y administración de datos
Importar datos de bases de datos que ya estén en AWS
Tras especificar dónde se encuentran sus bases de datos y proporcione sus credenciales de acceso, Lake Formation lee los datos y sus metadatos (esquema) para comprender el contenido de los orígenes de datos. A continuación, importa los datos a su nuevo lago de datos y registra los metadatos en un catálogo central. Con Lake Formation, puede importar datos de bases de datos MySQL, PostgreSQL, SQL Server, MariaDB y Oracle que se ejecuten en Amazon RDS o estén alojadas en Amazon EC2. Son compatibles tanto la carga masiva de datos como la incremental.
Importar datos de otros orígenes externos
Puede usar Lake Formation para mover datos desde bases de datos en las instalaciones conectándose con Java Database Connectivity (JDBC). Identifique sus fuentes de destino y proporcione las credenciales de acceso en la consola, y Lake Formation leerá y cargará sus datos en el lago de datos. Para importar datos de bases de datos distintas de las enumeradas anteriormente, puede crear trabajos ETL personalizados con AWS Glue.
Catalogar y etiquetar sus datos
Puede utilizar rastreadores de AWS Glue para leer sus datos en Amazon S3 y extraer el esquema de la base de datos y las tablas y almacenar esos datos en un AWS Glue Data Catalog apto para búsquedas. A continuación, utilice Lake Formation Control de acceso basado en etiquetas de Lake Formation (TBAC) para administrar los permisos sobre bases de datos, tablas y columnas. Para obtener más información sobre cómo agregar tablas al Catálogo de datos, consulte Creación de tablas y bases de datos del Catálogo de datos.
Administración de la seguridad
Defina y gestione los controles de acceso
Lake Formation proporciona un único lugar para administrar los controles de acceso a los datos de su lago de datos. Puede definir políticas de seguridad que restrinjan el acceso a los datos a nivel de base de datos, tabla, columna, fila y celda. Estas políticas se aplican a usuarios y roles de IAM, y a usuarios y grupos cuando se federan a través de un proveedor de identidades externo. Puede utilizar controles detallados para acceder a los datos asegurados por Lake Formation dentro de Amazon Redshift Spectrum, Athena, AWS Glue ETL y Amazon EMR para Apache Spark. Siempre que cree identidades IAM, asegúrese de seguir las mejores prácticas IAM. Para más información, consulte las mejores prácticas de seguridad en la Guía del usuario de IAM.
Modo de acceso híbrido
El modo de acceso híbrido de Lake Formation proporciona la flexibilidad de habilitar selectivamente los permisos de Lake Formation para bases de datos y tablas en su AWS Glue Data Catalog. Con el modo de acceso híbrido, ahora tiene una ruta incremental que le permite establecer los permisos de Lake Formation para un conjunto específico de usuarios sin interrumpir las políticas de permisos de otros usuarios o cargas de trabajo existentes. Para obtener más información, consulte Modo de acceso híbrido.
Implantar el registro de auditoría
Lake Formation proporciona registros de auditoría completos con CloudTrail para supervisar el acceso y demostrar el cumplimiento de las políticas definidas de forma centralizada. Puede auditar el historial de acceso a los datos en los servicios de análisis y de machine learning que leen los datos de su lago de datos a través de Lake Formation. Esto le permite ver qué usuarios o roles han intentado acceder a qué datos, con qué servicios y cuándo. Puede acceder a los registros de auditoría del mismo modo que accede a cualquier otro registro de CloudTrail utilizando las API y la consola de CloudTrail. Para obtener más información sobre los registros de CloudTrail, consulte Registro de llamadas a la API de AWS Lake Formation mediante AWS CloudTrail.
Seguridad de nivel de fila y celda
Lake Formation proporciona filtros de datos que le permiten restringir el acceso a una combinación de columnas y filas. Utilice la seguridad a nivel de filas y celdas para proteger datos confidenciales como la información de identificación personal (PII). Para obtener más información sobre la seguridad a nivel de fila, consulte Filtrado de datos y seguridad de celda en Lake Formation.
Control de acceso basado en etiquetas
Utilice el control de acceso basado en etiquetas de Lake Formation para administrar cientos o incluso miles de permisos de datos mediante la creación de etiquetas personalizadas denominadas etiquetas LF. Ahora puede definir etiquetas LF y asociarlas a bases de datos, tablas o columnas. A continuación, comparta el acceso controlado a través de los servicios de análisis, de machine learning (ML) y de extracción, transformación y carga (ETL) para su consumo. Las etiquetas LF garantizan que la gobernanza de los datos pueda escalarse fácilmente sustituyendo las definiciones de políticas de miles de recursos por unas pocas etiquetas lógicas. Lake Formation proporciona una búsqueda basada en texto sobre estos metadatos, para que sus usuarios puedan encontrar rápidamente los datos que necesitan analizar.
Acceso entre cuentas
Las capacidades de administración de permisos de Lake Formation simplifican la seguridad y la administración de los lagos de datos distribuidos en varias cuentas AWS a través de un enfoque centralizado, proporcionando un control de acceso específico al Catálogo de datos y a las ubicaciones de Amazon S3. Para obtener más información, consulte Compartir datos entre cuentas en Lake Formation.
Uso compartido de datos
La capacidad de uso compartido de datos le permite establecer permisos sobre conjuntos de datos almacenados en diferentes orígenes de datos como Amazon Redshift sin necesidad de migrar datos o metadatos a Amazon S3 o AWS Glue Data Catalog. Puede utilizar cualquiera de los métodos siguientes para compartir datos en Lake Formation:
Para obtener más información, consulte Uso compartido de datos en Lake Formation.
-
Integración de Lake Formation con el uso compartido de datos de Amazon Redshift. Utilice Lake Formation para administrar de forma centralizada los permisos de acceso a nivel de base de datos, tabla, columna y fila de los recursos compartidos de datos de Amazon Redshift y restringir el acceso de los usuarios a los objetos dentro de un recurso compartido de datos.
-
Conexión de AWS Glue Data Catalog a metaalmacenes externos. Conecte AWS Glue Data Catalog a metaalmacenes externos para gestionar los permisos de acceso a los conjuntos de datos de Amazon S3 mediante Lake Formation. No es necesaria la migración de los metadatos a AWS Glue Data Catalog.
Para obtener más información, consulte Administración de los permisos de los conjuntos de datos que utilizan metaalmacenes externos
-
Integración de Lake Formation con el intercambio de datos de AWS. Lake Formation admite la concesión de licencias de acceso a sus datos mediante AWS Data Exchange. Si está interesado en licenciar sus datos de Lake Formation, consulte Qué es AWS Data Exchange en la Guía del usuario de AWS Data Exchange.
Introducción a Lake Formation
Le recomendamos que lea las siguientes secciones:
-
AWS Lake Formation: Cómo funciona. Conozca la terminología esencial y cómo interactúan los distintos componentes.
-
Introducción a Lake Formation. Obtenga información sobre los requisitos previos y complete las tareas de configuración importantes.
-
Tutoriales de AWS Lake Formation. Siga tutoriales paso a paso para aprender a utilizar Lake Formation.
-
Seguridad en AWS Lake Formation. Comprenda cómo puede ayudar a proteger el acceso a los datos en Lake Formation.