我應該在何時使用 Athena? - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

我應該在何時使用 Athena?

查詢服務 (例如 Amazon Athena)、Amazon Redshift 等資料倉儲,以及 Amazon 這類複雜的資料處理架構,EMR都能滿足不同的需求和使用案例。以下指導可協助您根據您的要求選擇一項或多項服務。

Amazon Athena

Athena 可協助您分析在 Amazon S3 中存放的非結構化、半結構化和結構化資料。範例包括CSVJSON、或欄式資料格式,例如 Apache 的鑲木地板和 Apache。ORC您可以使用 Athena 執行臨機操作查詢 ANSISQL,而不需要將資料彙總或載入 Athena。

Athena 與 Amazon QuickSight 整合,可輕鬆實現資料視覺 您可以使用 Athena 產生報告,或透過商業智慧工具或與或ODBC驅動程式連線的用SQL戶端來探索資料。JDBC有關更多信息,請參閱 Amazon 用 QuickSight 戶指南 QuickSight中的 Amazon 是什使用ODBC和JDBC司機 Connect 到 Amazon Athena

Athena 與整合 AWS Glue Data Catalog,為您在 Amazon S3 中的資料提供永久的中繼資料存放區。這可讓您根據整個 Amazon Web Services 帳戶提供的中央中繼資料存放區,並與的和資料探索功能整合,在 Athena 中建立表格ETL和查詢資料 AWS Glue。如需詳細資訊,請參閱《AWS Glue 開發人員指南》中的 使用 AWS Glue Data Catalog 連線到您的資料什麼是 AWS Glue

Amazon Athena 讓您能直接在 Simple Storage Service (Amazon S3) 中輕鬆執行對資料的互動式查詢,而不需要格式化資料或管理基礎設施。例如,如果您想對 Web 日誌執行快速查詢以解決網站上的效能問題,Athena 非常有用。有了 Athena,您就可以快速開始使用:只要為資料定義資料表,然後開始使用標準查詢即可SQL。

如果您想要針對 Amazon S3 上的資料執行互動式臨機操作SQL查詢,而不需要管理任何基礎設施或叢集,則應使用 Amazon Athena。Amazon Athena 為對在 Simple Storage Service (Amazon S3) 中的資料執行隨意查詢提供了最簡單的方法,而不需要設置或管理任何伺服器。

如需 Athena 運用或整合的 AWS 服務 清單,請參閱AWS 服務 與 Athena 的集成

Amazon EMR

與現場部署相較之下,Amazon EMR 讓執行 Hadoop、Spark 和 Presto 等高度分散式處理架構變得簡單且具成本效益。Amazon EMR 非常靈活 — 您可以執行自訂應用程式和程式碼,並定義特定的運算、記憶體、儲存和應用程式參數,以最佳化您的分析需求。

除了執行SQL查詢之外,Amazon 還EMR可以針對應用程式執行各種橫向擴充資料處理任務,例如機器學習、圖形分析、資料轉換、串流資料,以及幾乎任何您可以撰寫程式碼的應用程式。EMR如果您使用自訂程式碼來處理和分析具有最新巨量資料處理架構 (例如 Spark、Hadoop、普雷斯托或 Hbase) 的極大型資料集,則應使用 Amazon。Amazon 可EMR讓您完全控制叢集的組態以及叢集上安裝的軟體。

您可以使用 Amazon Athena 查詢您使用 Amazon 處理的資料EMR。Amazon Athena 支持許多與 Amazon 相同的數據格式EMR。Athena 的資料目錄與 Hive 中繼存放區相容。如果您使用EMR並且已經擁有 Hive 中繼存放區,則可以在 Amazon Athena 上執行DDL陳述式並立即查詢資料,而不會影響 Amazon 任EMR務。

Amazon Redshift

當您需要將來自許多不同來源的資料(例如庫存系統、財務系統和零售銷售系統)彙集成一個通用格式並長時間存放時,像 Amazon Redshift 這樣的資料倉儲是您的最佳選擇。如果您想根據歷史資料建置複雜的業務報告,那麼像 Amazon Redshift 這樣的資料倉儲是最佳選擇。Amazon Redshift 中的查詢引擎經過優化,在執行聯結大量非常龐大的資料庫資料表的複雜查詢時,表現尤佳。如果您需要對高度結構化且具有許多大量超大資料表聯結的資料執行查詢時,請選擇 Amazon Redshift。

如需有關何時使用 Athena 的詳細資訊,請參閱下列資源: