Amazon SageMaker HyperPod

수천 개의 AI 액셀러레이터에서 생성형 AI 모델 개발 규모 조정 및 가속화

SageMaker HyperPod란 무엇인가요?

Amazon SageMaker HyperPod 사용 시에는 기계 학습(ML) 인프라 구축 및 최적화와 관련된 획일적이며 번거로운 작업을 직접 처리할 필요가 없습니다. 또한 SageMaker의 분산 훈련 라이브러리로 사전 구성되어 있으므로 1,000개가 넘는 AI 액셀러레이터에서 훈련 워크로드를 자동 분할할 수 있습니다. 따라서 워크로드를 병렬로 처리하여 모델 성능을 개선할 수 있습니다. SageMaker HyperPod는 체크포인트를 주기적으로 저장하므로, FM 훈련을 중단하지 않고 계속 진행할 수 있습니다. 하드웨어 장애 발생 시 이를 자동으로 감지하고, 결함이 있는 인스턴스를 복구 또는 교체하고, 마지막으로 저장한 체크포인트에서 훈련을 재개하므로 이러한 프로세스를 수동으로 관리할 필요가 없습니다. 복원력이 뛰어난 환경을 통해 분산 환경에서 중단 없이 몇 주 또는 몇 달 동안 모델을 훈련시킬 수 있으므로 훈련 시간을 최대 40% 절약할 수 있습니다. 또한 SageMaker HyperPod는 고도로 사용자 지정할 수 있으므로 FM 워크로드를 효율적으로 실행 및 확장하고 대규모 훈련에서 추론에 이르는 다양한 워크로드 간에 컴퓨팅 용량을 쉽게 공유할 수 있습니다.

SageMaker HyperPod의 이점

SageMaker HyperPod 작업 거버넌스 혁신은 훈련 및 추론과 같은 생성형 AI 모델 개발 작업 전반의 컴퓨팅 리소스 할당에 대한 완전한 가시성과 제어 기능을 제공합니다. SageMaker HyperPod는 작업 대기열을 자동으로 관리하여 가장 중요한 작업의 우선 순위를 지정하고 예산에 맞춰 완료하는 동시에 컴퓨팅 리소스를 더욱 효율적으로 사용하여 모델 개발 비용을 최대 40% 절감합니다.
SageMaker HyperPod 레시피를 사용하면 기술 분야와 관계없이 데이터 과학자와 개발자가 몇 분 만에 공개적으로 사용 가능한 생성형 AI 모델을 훈련하고 미세 조정할 수 있는 동시에 최첨단 성능의 이점을 누릴 수 있습니다. 또한 SageMaker HyperPod는 모델 성능을 향상시키는 데 도움이 되는 내장된 실험 및 관찰성을 제공합니다.
SageMaker HyperPod를 사용하면 AWS 클러스터 인스턴스에 걸쳐 모델 및 훈련 데이터세트를 자동으로 분할하여 훈련 워크로드를 효율적으로 확장할 수 있습니다. 따라서 AWS 네트워크 인프라 및 클러스터 토폴로지에 대한 훈련 작업을 최적화할 수 있습니다. 또한 체크포인트 저장 빈도를 최적화하여 레시피를 통해 모델 체크포인팅을 간소화하고 훈련 중 오버헤드를 최소화합니다.
SageMaker HyperPod는 인프라 결함을 자동으로 탐지, 진단 및 복구하여 복원력이 뛰어난 모델 개발 환경을 제공하므로 모델 개발 워크로드를 몇 개월 동안 중단 없이 지속적으로 실행할 수 있습니다.

SageMaker HyperPod의 작업 거버넌스 소개

활용도를 극대화하고 컴퓨팅 리소스에 대한 완전한 가시성을 확보하는 동시에 비용을 절감할 수 있습니다.

자세히 알아보기