用于监控使用 Amazon SageMaker 时预配置的 AWS 资源的工具
监控是保持 SageMaker 和您的其他 AWS 解决方案的可靠性、可用性和性能的重要方面。AWS 提供了以下一些监控工具来监控 SageMaker、在出现错误时进行报告并适时自动采取措施。
-
Amazon CloudWatch 实时监控您的 AWS 资源以及在 AWS 上运行的应用程序。您可以收集和跟踪指标,创建自定义的控制平面,以及 设置警报以在指定的指标达到您指定的阈值时通知您或采取措施。例如,您可以使用 CloudWatch 跟踪 Amazon EC2 实例的 CPU 使用率或其他指标并且在需要时自动启动新实例。有关更多信息,请参阅 Amazon CloudWatch 用户指南。
-
Amazon CloudWatch Logs 使您能够监控、存储和访问来自 EC2 实例、AWS CloudTrail 和其他来源的日志文件。CloudWatch Logs 可以监控日志文件中的信息,并在达到特定阈值时通知您。您还可以在高持久性存储中检索您的日志数据。有关更多信息,请参阅 Amazon CloudWatch Logs 用户指南。
-
AWS CloudTrail 捕获由您的 AWS 账户或代表该账户发出的 API 调用和相关事件,并将日志文件传输到您指定的 Amazon S3 存储桶。您可以标识哪些用户和账户调用了 AWS、发出调用的源 IP 地址以及调用的发生时间。有关更多信息,请参阅 AWS CloudTrail《用户指南》。
-
CloudWatch Events 提供几乎实时的系统事件流,这些事件描述 AWS 资源的更改。创建 CloudWatch Events 规则可应对 SageMaker 训练、超参数优化或批量转换作业中的状态变化