Tích hợp không ETL là gì?

Tạo tài khoản AWS

Khám phá các ưu đãi phân tích miễn phí

Xem các ưu đãi miễn phí dành cho dịch vụ Phân tích trên đám mây

Xem các dịch vụ phân tích

Đổi mới nhanh hơn với bộ dịch vụ Phân tích toàn diện nhất

Duyệt xem các khóa đào tạo phân tích

Bắt đầu đào tạo về Phân tích với nội dung do các chuyên gia AWS xây dựng

Đọc blog về phân tích

Đọc các tin tức sản phẩm mới nhất và biện pháp thực hành tốt nhất về Phân tích trên AWS

Tích hợp không ETL là gì?

Tích hợp không ETL là một tập hợp các tích hợp giúp loại bỏ hoặc giảm thiểu nhu cầu xây dựng quy trình dữ liệu ETL. Trích xuất, chuyển đổi và tải (ETL) là quy trình kết hợp, làm sạch và chuẩn hóa dữ liệu từ các nguồn khác nhau để sẵn sàng cho khối lượng công việc phân tích, trí tuệ nhân tạo (AI) và máy học (ML). Các quy trình ETL truyền thống tốn nhiều thời gian và phức tạp để phát triển, duy trì và điều chỉnh quy mô. Thay vào đó, tích hợp không ETL tạo điều kiện thuận lợi cho việc di chuyển dữ liệu point-to-point (điểm nối điểm) mà không cần tạo quy trình dữ liệu ETL. Tích hợp không ETL cũng có thể cho phép truy vấn qua các lô cốt dữ liệu mà không cần di chuyển dữ liệu.

Tìm hiểu về ETL »

Tích hợp không ETL giải quyết những thách thức ETL nào?

Tích hợp không ETL giải quyết nhiều thách thức khi di chuyển dữ liệu hiện có trong các quy trình ETL truyền thống.

Tăng độ phức tạp của hệ thống

Các quy trình dữ liệu ETL tăng độ phức tạp cho các nỗ lực tích hợp dữ liệu của bạn. Việc ánh xạ dữ liệu để phù hợp với lược đồ mục tiêu mong muốn bao gồm các quy tắc ánh xạ dữ liệu phức tạp, yêu cầu xử lý các mâu thuẫn và xung đột dữ liệu. Bạn phải triển khai các cơ chế xử lý lỗi, ghi nhật ký và thông báo hiệu quả để chẩn đoán sự cố. Yêu cầu bảo mật dữ liệu càng làm tăng thêm các hạn chế trên hệ thống.

Phụ phí

Các quy trình ETL rất tốn kém để bắt đầu nhưng chi phí có thể tăng khi khối lượng dữ liệu tăng lên. Kho lưu trữ dữ liệu trùng lặp giữa các hệ thống có thể không phù hợp về mặt chi phí khi có khối lượng lớn dữ liệu. Ngoài ra, việc điều chỉnh quy mô của các quy trình ETL thường yêu cầu nâng cấp cơ sở hạ tầng tốn kém, tối ưu hóa hiệu suất truy vấn và kỹ thuật xử lý song song. Nếu yêu cầu thay đổi, hoạt động thu thập và sử dụng dữ liệu phải liên tục theo dõi và kiểm tra quy trình trong quá trình cập nhật, làm tăng chi phí bảo trì.

Trì hoãn thời gian cho phân tích, AI và ML

ETL thường yêu cầu các kỹ sư dữ liệu tạo mã tùy chỉnh, cũng như yêu cầu các kỹ sư DevOps triển khai và quản lý cơ sở hạ tầng cần thiết để điều chỉnh quy mô khối lượng công việc. Trong trường hợp thay đổi nguồn dữ liệu, các kỹ sư dữ liệu phải tự sửa đổi mã của họ và triển khai lại. Quá trình này có thể mất vài tuần, gây ra sự chậm trễ trong việc chạy khối lượng công việc phân tích, trí tuệ nhân tạo và máy học. Hơn nữa, thời gian cần thiết để xây dựng và triển khai các quy trình dữ liệu ETL khiến dữ liệu không phù hợp với các trường hợp sử dụng gần thời gian thực như đặt quảng cáo trực tuyến, phát hiện các giao dịch gian lận hoặc phân tích chuỗi cung ứng theo thời gian thực. Trong những tình huống này, bạn sẽ mất đi cơ hội để cải thiện trải nghiệm của khách hàng, giải quyết các cơ hội kinh doanh mới hoặc giảm rủi ro kinh doanh.

Tích hợp không ETL mang lại những lợi ích gì?

Tích hợp không ETL cung cấp một số lợi ích cho chiến lược dữ liệu của tổ chức.

Tăng tính linh hoạt

Tích hợp không ETL đơn giản hóa kiến trúc dữ liệu và giảm các nỗ lực thu thập cũng như sử dụng dữ liệu. Giải pháp này cho phép bao gồm các nguồn dữ liệu mới mà không cần phải xử lý lại lượng lớn dữ liệu. Điều này giúp tăng tính linh hoạt, hỗ trợ việc ra quyết định dựa trên dữ liệu và đổi mới nhanh chóng.

Tiết kiệm chi phí

Tích hợp không ETL sử dụng các công nghệ tích hợp dữ liệu hoạt động trên đám mây và có thể điều chỉnh quy mô, cho phép các doanh nghiệp tối ưu hóa chi phí dựa trên nhu cầu sử dụng và xử lý dữ liệu thực tế. Các tổ chức giảm chi phí cơ sở hạ tầng, nỗ lực phát triển và chi phí bảo trì.

Thu thập thông tin chuyên sâu nhanh hơn

Các quy trình ETL truyền thống thường bao gồm đến bản cập nhật hàng loạt định kỳ, từ đó trì hoãn tính sẵn có của dữ liệu. Tích hợp không ETL lại cung cấp quyền truy cập dữ liệu theo thời gian thực hoặc gần thời gian thực, đảm bảo dữ liệu mới hơn để phân tích, cho công nghệ AI/ML và báo cáo. Bạn nhận được thông tin chuyên sâu chính xác và kịp thời hơn cho các trường hợp sử dụng như bảng điều khiển theo thời gian thực, trải nghiệm chơi game được tối ưu hóa, giám sát chất lượng dữ liệu và phân tích hành vi của khách hàng. Các tổ chức tự tin hơn khi đưa ra các dự đoán dựa trên dữ liệu, cải thiện trải nghiệm của khách hàng và thúc đẩy thông tin chuyên sâu dựa trên dữ liệu trong toàn bộ doanh nghiệp.

Đâu là các trường hợp sử dụng khác nhau cho tích hợp không ETL?

Có ba trường hợp sử dụng chính cho không ETL.

Tải nhập dữ liệu nhanh chóng

Doanh nghiệp cần nhanh chóng tải nhập và phân tích các loại dữ liệu khác nhau để đưa ra quyết định trong thời gian thực. Khả năng tích hợp không ETL cung cấp một phương pháp linh hoạt để nhanh chóng tải nhập dữ liệu trực tiếp vào kho dữ liệu và hồ dữ liệu. Điều này giúp loại bỏ nhu cầu sử dụng quy trình ETL truyền thống, cho phép các tổ chức dễ dàng thích ứng với những yêu cầu kinh doanh không ngừng thay đổi.

Tải nhập truyền phát

Nền tảng truyền dữ liệu và hàng đợi tin nhắn truyền dữ liệu thời gian thực từ một số nguồn. Tích hợp không ETL với kho dữ liệu cho phép bạn tải nhập dữ liệu từ nhiều luồng như vậy và cung cấp dữ liệu để phân tích gần như ngay tức thì. Không cần phải chuẩn bị dữ liệu truyền liên tục vì những nền tảng này cũng cung cấp các công cụ chuyển đổi và phân tích phong phú trong khi dữ liệu đang di chuyển.

Sao chép tức thì

Theo truyền thống, quá trình di chuyển dữ liệu từ cơ sở dữ liệu hoạt động và giao dịch vào kho dữ liệu trung tâm và hồ dữ liệu luôn đòi hỏi một giải pháp ETL phức tạp. Ngày nay, khả năng tích hợp không ETL có thể hoạt động như một công cụ sao chép dữ liệu, ngay lập tức sao chép dữ liệu từ cơ sở dữ liệu hoạt động, cơ sở dữ liệu giao dịch và các ứng dụng vào kho dữ liệu và hồ dữ liệu. Cơ chế sao chép sử dụng các kỹ thuật thu thập dữ liệu thay đổi (CDC) và có thể được tích hợp vào kho dữ liệu và hồ dữ liệu. Người dùng không hề nhận thấy quá trình sao chép – các ứng dụng lưu trữ dữ liệu trong cơ sở dữ liệu giao dịch và các công cụ phân tích truy vấn dữ liệu từ kho một cách liền mạch.

AWS có thể hỗ trợ các nỗ lực tích hợp không ETL của bạn bằng cách nào?

AWS đang đầu tư vào một tương lai không ETL. Dưới đây là ví dụ về các dịch vụ cung cấp hỗ trợ tích hợp sẵn cho không ETL.

Amazon SageMaker Lakehouse và Amazon Redshift hỗ trợ tiện ích tích hợp không ETL từ các ứng dụng, giúp tự động hóa việc trích xuất và tải dữ liệu từ các ứng dụng vào Amazon SageMaker Lakehouse và Amazon Redshift.

Tiện ích tích hợp không ETL của Amazon DynamoDB với Amazon SageMaker Lakehouse sẽ tự động hóa việc trích xuất và tải dữ liệu từ Amazon DynamoDB vào Amazon SageMaker Lakehouse, một hồ dữ liệu giao dịch được xây dựng trên Amazon S3.

Tiện ích tích hợp không ETL trong Dịch vụ OpenSearch của Amazon với Bản ghi Amazon CloudWatch cho phép truy vấn và trực quan hóa dữ liệu bản ghi gần như theo thời gian thực, tập trung quản lý bản ghi mà không cần tới các quy trình xử lý hay tiền xử lý phức tạp.

Tiện ích tích hợp không ETL trong Dịch vụ OpenSearch của Amazon với Amazon Security Lake cho phép tìm kiếm và phân tích trực tiếp dữ liệu bảo mật, loại bỏ các thách thức về tích hợp dữ liệu, đồng thời giảm thiểu sự phức tạp, chi phí vận hành và các chi phí thông qua khả năng tăng tốc dữ liệu theo nhu cầu và phân tích phong phú.

Tiện ích tích hợp không ETL của Amazon Aurora với Amazon Redshift tạo điều kiện áp dụng công nghệ máy học (ML) và chức năng phân tích gần theo thời gian thực. Giải pháp này sử dụng Amazon Redshift phân tích khối lượng công việc trên hàng petabyte dữ liệu giao dịch từ Aurora. Đây là một giải pháp được quản lý toàn phần để cung cấp dữ liệu giao dịch trong Amazon Redshift sau khi dữ liệu được ghi vào cụm Aurora DB.

Tiện ích tích hợp không ETL của Amazon RDS dành cho MySQL với Amazon Redshift giúp rút ra thông tin chuyên sâu toàn diện từ nhiều ứng dụng và phá bỏ các lô cốt dữ liệu trong tổ chức của bạn, cho phép đơn giản hóa quy trình phân tích dữ liệu từ một hoặc nhiều phiên bản Amazon RDS dành cho MySQL trong Amazon Redshift.

Tiện ích tích hợp không ETL của Amazon DynamoDB với Dịch vụ OpenSearch của Amazon cung cấp cho khách hàng các chức năng tìm kiếm nâng cao, chẳng hạn như tìm kiếm toàn văn bản và tìm kiếm theo véc-tơ, trên dữ liệu trong Amazon DynamoDB.

Tiện ích tích hợp không ETL của Amazon DocumentDB với Dịch vụ OpenSearch của Amazon cung cấp cho khách hàng các chức năng tìm kiếm nâng cao, chẳng hạn như tìm kiếm tương đối, tìm kiếm trên nhiều tập hợp và tìm kiếm đa ngôn ngữ, trên các tài liệu trong Amazon DocumentDB thông qua API OpenSearch.

Tiện ích tích hợp không ETL trong Dịch vụ OpenSearch của Amazon với Amazon S3, một cách hiệu quả mới để khách hàng truy vấn bản ghi hoạt động trong các hồ dữ liệu Amazon S3, giúp họ không còn phải chuyển đổi giữa các công cụ để phân tích dữ liệu.

Tiện ích tích hợp không ETL của Amazon Aurora PostgreSQL với Amazon Redshift cho phép thực hiện phân tích gần thời gian thực và công nghệ máy học (ML) bằng cách sử dụng Amazon Redshift cho việc phân tích hàng petabyte dữ liệu giao dịch từ Aurora.

Tiện ích tích hợp không ETL của Amazon DynamoDB với Amazon Redshift giúp khách hàng chạy tác vụ phân tích hiệu năng cao trên dữ liệu DynamoDB trong Amazon Redshift mà không ảnh hưởng đến khối lượng công việc sản xuất chạy trên DynamoDB.

Bắt đầu sử dụng không ETL trên AWS bằng cách tạo tài khoản miễn phí ngay hôm nay!

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm

Xem các ưu đãi miễn phí dành cho dịch vụ Phân tích trên đám mây

Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký

Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập

Tích hợp không ETL là gì?

Tích hợp không ETL là gì?

Tích hợp không ETL giải quyết những thách thức ETL nào?

Tăng độ phức tạp của hệ thống

Phụ phí

Trì hoãn thời gian cho phân tích, AI và ML

Tích hợp không ETL mang lại những lợi ích gì?

Tăng tính linh hoạt

Tiết kiệm chi phí

Thu thập thông tin chuyên sâu nhanh hơn

Đâu là các trường hợp sử dụng khác nhau cho tích hợp không ETL?

AWS có thể hỗ trợ các nỗ lực tích hợp không ETL của bạn bằng cách nào?

Các bước tiếp theo trên AWS

Ngừng hỗ trợ cho Internet Explorer