使用 S3 Metadata 加速資料探索 - Amazon Simple Storage Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 S3 Metadata 加速資料探索

Amazon S3 Metadata 透過自動擷取一般用途儲存貯體中物件的中繼資料,並將其儲存在您可以查詢的唯讀、全受管 Apache Iceberg 資料表中,從而加速資料探索。這些唯讀資料表稱為「中繼資料表」。當您在一般用途儲存貯體中新增、更新和移除物件時,S3 Metadata 會自動重新整理對應的中繼資料表,以反映最新的變更。

根據預設,S3 Metadata 提供三種中繼資料類型:

如需中繼資料表中儲存哪些資料的詳細資訊,請參閱S3 中繼資料表結構描述

透過 S3 Metadata,您可以輕鬆尋找、儲存和查詢 S3 物件的中繼資料,以便快速準備資料,以用於商業分析、內容擷取、人工智慧和機器學習 (AI/ML) 模型訓練等。

中繼資料表儲存在 S3 資料表儲存貯體中,提供針對表格式資料最佳化的儲存體。若要輕鬆查詢中繼資料,您可以將資料表儲存貯體與 整合 AWS Glue Data Catalog。與資料表儲存貯體整合後 AWS Glue Data Catalog,您可以使用 Amazon Athena、Amazon EMR、Amazon Redshift、 Apache Spark和 等查詢引擎直接查詢中繼資料表Trino。您也可以使用支援 Apache Iceberg 格式的任何其他應用程式來查詢中繼資料表。若要從中繼資料表建立儀表板,請使用 Amazon QuickSight。

如需 S3 Metadata 定價,請參閱 Amazon S3 定價

中繼資料表的運作方式

中繼資料表是由 Amazon S3 管理,無法透過 Amazon S3 本身以外的任何 IAM 主體進行修改 (不過,您可以刪除中繼資料表)。因此,中繼資料表是唯讀的,這有助於確保正確反映儲存貯體的內容。

為了讓您的 Apache Iceberg 中繼資料表發揮最佳效能,Amazon S3 會對資料表執行定期維護活動,例如壓縮和移除未參考的檔案。這些維護活動有助於將儲存中繼資料表的成本降到最低,並最佳化查詢效能。此資料表維護會自動執行,您不需要選擇加入或持續管理。不過,如有需要,您可以設定這些資料表維護活動。如需詳細資訊,請參閱資料表儲存貯體維護

注意

S3 Metadata 設計成在您變更一般用途儲存貯體時持續附加至中繼資料表。每次更新都會建立「快照」 - 中繼資料表的新版本。由於中繼資料表的唯讀本質,您無法刪除中繼資料表中的記錄。您也無法使用 S3 Tables 的快照過期功能來使中繼資料表的舊快照過期。

為了協助將成本降到最低,您可以定期刪除中繼資料表組態和中繼資料表,然後重新加以建立。如需詳細資訊,請參閱刪除中繼資料表組態刪除中繼資料表

若要在 S3 受管中繼資料表中產生和儲存物件中繼資料,您可以為一般用途儲存貯體建立中繼資料表組態。Amazon S3 設計成只要儲存貯體上的組態為作用中,就能持續更新中繼資料表以反映資料的最新變更。

若要建立中繼資料表組態,您必須確定具有建立和管理中繼資料表的必要 AWS Identity and Access Management (IAM) 許可。如需詳細資訊,請參閱設定設定中繼資料表的許可。您也必須建立或指定要在其中儲存中繼資料表的 S3 資料表儲存貯體。此資料表儲存貯體必須與一般用途儲存貯體位於相同的 AWS 區域 和 帳戶。如需建立資料表儲存貯體的詳細資訊,請參閱建立資料表儲存貯體

注意

在您建立中繼資料表組態之前,S3 Metadata 不適用於已存在於一般用途儲存貯體中的任何物件。換言之,S3 Metadata 只會擷取已建立中繼資料表組態之後發生之變更事件 (例如上傳、更新和刪除) 的中繼資料。

若要監控中繼資料表組態的更新,您可以使用 AWS CloudTrail。如需詳細資訊,請參閱CloudTrail 日誌記錄所追蹤的 Amazon S3 儲存貯體層級動作