Uso de integraciones sin ETL de Amazon RDS con Amazon Redshift
La integración sin ETL de Amazon RDS con Amazon Redshift permite realizar análisis y machine learning (ML) casi en tiempo real mediante Amazon Redshift en petabytes de datos transaccionales de RDS. Es una solución totalmente administrada que permite que los datos transaccionales estén disponibles en Amazon Redshift después de escribirlos en una base de datos de RDS. La extracción, transformación y carga (ETL) es un proceso en el que se combinan datos de numerosos orígenes en un gran almacenamiento de datos central.
La integración sin ETL hace que los datos de la base de datos de RDS estén disponibles en Amazon Redshift prácticamente en tiempo real. Una vez que los datos están en Amazon Redshift, puede alimentar sus cargas de trabajo de análisis, ML e IA con las funciones integradas de Amazon Redshift, como el machine learning, las vistas materializadas, el uso compartido de datos, el acceso federado a varios almacenamientos de datos y lagos de datos, y las integraciones con Amazon SageMaker, Amazon QuickSight y otros Servicios de AWS.
Para crear una integración sin ETL, especifique una base de datos RDS como origen y un almacenamiento de datos de Amazon Redshift como destino. La integración replica los datos de la base de datos de origen en el almacenamiento de datos de destino.
El siguiente diagrama ilustra esta funcionalidad:
La integración supervisa el estado de la canalización de datos y se recupera de los problemas cuando es posible. Es posible crear integraciones a partir de varias bases de datos de RDS en un único espacio de nombres de Amazon Redshift, lo que le permite obtener información de varias aplicaciones.
Temas
- Ventajas
- Conceptos clave
- Limitaciones
- Cuotas
- Regiones admitidas
- Introducción a las integraciones sin ETL de Amazon RDS con Amazon Redshift
- Creación de integraciones sin ETL de Amazon RDS con Amazon Redshift
- Filtrado de datos para integraciones sin ETL de Amazon RDS con Amazon Redshift
- Cómo agregar datos en una base de datos de RDS de origen y dirigirle consultas en Amazon Redshift
- Visualización y supervisión de las integraciones sin ETL de Amazon RDS con Amazon Redshift
- Modificación de las integraciones sin ETL de Amazon RDS con Amazon Redshift
- Eliminación de las integraciones sin ETL de Amazon RDS con Amazon Redshift
- Solución de problemas de integraciones sin ETL de Amazon RDS con Amazon Redshift
Ventajas
Las integraciones sin ETL de RDS con Amazon Redshift tienen las siguientes ventajas:
-
Le ayudan a obtener información holística a partir de numerosos orígenes de datos.
-
Eliminan la necesidad de crear y mantener canalizaciones de datos complejas que realicen operaciones de extracción, transformación y carga (ETL). Las integraciones sin ETL eliminan los inconvenientes derivados de la creación y administración de canalizaciones, ya que las aprovisionan y administran por usted.
-
Reducen la carga operativa y los costos para que pueda centrarse en mejorar sus aplicaciones.
-
Le permite aprovechar las capacidades de análisis y aprendizaje automático de Amazon Redshift para obtener información a partir de datos transaccionales y de otro tipo, a fin de responder de manera eficaz a eventos críticos y urgentes.
Conceptos clave
Cuando empiece a utilizar las integraciones sin ETL, tenga en cuenta los siguientes conceptos:
- Integración
-
Una canalización de datos totalmente administrada que replica automáticamente los datos y esquemas transaccionales de una base de datos de RDS a un almacenamiento de datos de Amazon Redshift.
- Base de datos de origen
-
La base de datos de RDS desde donde se replican los datos. Puede especificar una instancia de base de datos single-AZ o multi-AZ o un clúster de base de datos multi-AZ.
- Almacenamiento de datos de destino
-
El almacenamiento de datos de Amazon Redshift en el que se replican los datos. Hay dos tipos de almacenamientos de datos: un almacenamiento de datos de clústeres aprovisionados y un almacenamiento de datos sin servidor. Un almacenamiento de datos de clústeres aprovisionados es una colección de recursos de computación denominados nodos que están organizados en un grupo llamado clúster. Un almacenamiento de datos sin servidor se compone de un grupo de trabajo que almacena los recursos de computación y un espacio de nombres que aloja los objetos y usuarios de la base de datos. Ambos almacenamientos de datos ejecutan un motor de Amazon Redshift y contienen una o más bases de datos.
Múltiples bases de datos de origen pueden escribir en el mismo destino.
Para obtener más información, consulte Arquitectura del sistema de almacenamiento de datos en la Guía del desarrollador de Amazon Redshift.
Limitaciones
Las siguientes limitaciones se aplican a las integración sin ETL de RDS con Amazon Redshift.
Limitaciones generales
-
La base de datos de origen debe estar en la misma región que el almacenamiento de datos de destino de Amazon Redshift.
-
No puede cambiar el nombre de una base de datos si ya tiene integraciones.
-
No se pueden crear varias integraciones entre las mismas bases de datos de origen y de destino.
-
No puede eliminar una base de datos que ya tenga integraciones. Primero debes eliminar todas las integraciones asociadas.
-
Si detiene la base de datos de origen, es posible que las últimas transacciones no se repliquen en el almacenamiento de datos de destino hasta que reanude la base de datos.
-
No puede eliminar una integración si la base de datos de origen está detenida.
-
Si la base de datos es el origen de una implementación azul/verde, los entornos azul y verde no pueden tener integraciones sin ETL existentes durante la transición. Primero debe eliminar la integración, realizar la transición y, a continuación, volver a crear la integración.
-
No puede crear una integración para una base de datos de origen en la que se esté creando otra integración de forma activa.
-
Cuando se crea una integración por primera vez, o cuando se vuelve a sincronizar una tabla, la transferencia de datos del origen al destino puede tardar entre 20 y 25 minutos o más, en función del tamaño de la base de datos de origen. Este retardo puede provocar un aumento del retardo en la réplica.
-
Algunos tipos de datos no son compatibles. Para obtener más información, consulte Diferencias de tipos de datos entre las bases de datos RDS y Amazon Redshift .
-
Los identificadores de objetos (incluidos el nombre de la base de datos, el nombre de la tabla, los nombres de las columnas y otros) solo pueden contener caracteres alfanuméricos, números, $ y _ (guion bajo).
-
Las tablas del sistema, las tablas temporales y las vistas no se replican en Amazon Redshift.
Limitaciones de RDS for MySQL
-
La base de datos de origen debe ejecutar una versión compatible de RDS para MySQL. Para obtener una lista de las versiones compatibles, consulte Regiones y motores de base de datos admitidos para las integraciones sin ETL de Amazon RDS con Amazon Redshift..
-
Las integraciones sin ETL se basan en el registro binario de MySQL (binlog) para capturar los cambios en los datos en curso. No utilice el filtrado de datos basado en binlog, ya que puede provocar incoherencias entre los datos de las bases de datos de origen y de destino.
-
Las integraciones sin ETL solo son compatibles con bases de datos configuradas para usar el motor de almacenamiento de InnoDB.
-
No se admiten referencias de clave externas con actualizaciones de tablas predefinidas. En concreto, las reglas
ON DELETE
yON UPDATE
no son compatibles con las accionesCASCADE
,SET NULL
ySET DEFAULT
. Si se intenta crear o actualizar una tabla con este tipo de referencias a otra tabla, se producirá un error en la tabla. -
Las operaciones de partición de
ALTER TABLE
provocan que se vuelva a sincronizar su tabla para cargar los datos de RDS de nuevo en Amazon Redshift. Durante este proceso, la tabla no se podrá consultar. Para obtener más información, consulte Una o más de mis tablas de Amazon Redshift requieren una resincronización.
Limitaciones de Amazon Redshift
Para obtener una lista de limitaciones de Amazon Redshift relacionadas con las integraciones sin ETL, consulte Consideraciones al utilizar las integraciones sin ETL con Amazon Redshift de la Guía de administración de Amazon Redshift.
Cuotas
Su cuenta tiene las siguientes cuotas relacionadas con las integraciones sin ETL de RDS con Amazon Redshift. Cada una de las cuotas se aplica a una sola región, a no ser que se especifique otra cosa.
Nombre | Predeterminado | Descripción |
---|---|---|
Integraciones | 100 | El número total de integraciones dentro de una Cuenta de AWS. |
Integraciones por almacenamiento de datos de destino | 50 | El número de integraciones que envían datos a un único almacenamiento de datos de Amazon Redshift de destino. |
Integraciones por instancia de origen | 1 | La cantidad de integraciones que envían datos desde una sola instancia de base de datos de origen. |
Además, Amazon Redshift establece algunos límites en la cantidad de tablas permitidas en cada instancia de base de datos o nodo de clúster. Para obtener más información, consulte Cuotas y límites de Amazon Redshift en la Guía de administración de Amazon Redshift.
Regiones admitidas
Las integraciones sin ETL de RDS con Amazon Redshift están disponibles en un subconjunto de Regiones de AWS. Para obtener una lista de las regiones admitidas, consulte Regiones y motores de base de datos admitidos para las integraciones sin ETL de Amazon RDS con Amazon Redshift..