2022. 8. 4. 21:15ㆍCloud/AWS 기초
SageMaker의 WorkFlow는 아래와 같다.
S3를 통해서 먼저 데이터를 수집한다. 이 후 노트북 인스턴스를 사용해서 데이터를 탐색 및 분석을한다. 이 후 정규화된 훈련데이터를 바탕으로 훈련 인스턴스를 사용해서 훈련을 수행한다. 이때는 spot인스턴스를 주로 사용한다. 훈련이 끝난 데이터는 모형(모델)이 되어서 엔드포인트를 거쳐서 REST API형태로 서비스를 호출하고 사용할 수 있다.
SageMaker의 장점은 웹 인터페이스 형태의 즉각적인 코드 실행을 지원해주는 인터프리터 환경인 노트북을 제공해 준다는 점이다. 데이터 탐색작업을 손쉽게 할 수 있으며, 다양한 시각화 기법을 통해서 데이터를 시각화(그레프 등) 할 수 있으며, 이 값을 통해서 데이터를 정제하거나 모델을 생성할 수 있다.
노트북 인스턴스는 SageMaker 내부에 명령을 내리기 위한 노트북을 업로드 할 수 있는 기능이다. 여기에는 쥬피터 노트북, 쥬피터 렙 과같은 기능이 탑제되어 있으며, 단순 클릭만으로도 인스턴스를 업로드 할 수 있다. AWS 콘솔을 통해 접근해야지사용할 수 있으며, 이때 하나 주의해야할 점은 일반 인스턴스와 같이 실행해 둔 후 멈춤, 혹은 종료를 하지 않으면 지속적인 비용이 발생된다.
노트북 인스턴스보다 조금 더 편리한 기능으로는 SageMaker Studio가 있다. 그때 그때 필요할 때마다 즉시 생성해서 사용할 수 있으며, 노트북 인스턴스보다 훨신 빠르게 생성이 가능하다. 작업내용은 노트북 인스턴스와 같은 방식으로 보관해서 사용할 수 있으며, 과금방식은 사용한 것 만큼 과금이 발생된다. IAM 로그인 뿐만 아니라 SSO로그인으로도 접근이 가능하기에 AWS계정이 없더라도 사용할 수 있다는 장점이 있다.
Ground Truth 이라는 작업이 있다. 데이터를 분석 및 자동 레이블링을 하는 도중, 레이블링하기 모호한 자료가 발생할 경우 Amazon Mechanical Turk를 통해서 관리자에게 전달한다. 이를 통해서 훈련용 데이터의 정확성을 높일 수 있으며, 혹은 모델이 작성된 이후에 이 모델에 의해서 발생하는 정확도를 사람이 평가하는데 사용할 수 도 있다.
이 외에도 다양한 프레임워크(Apache Spark, TensorFlow, PyTorch....)를 사용할 수 있다.
SageMaker는 4가지의 알고리즘 옵션을 사용할 수 있다.
SageMaker기본 제공 알고리즘 == 병열처리에 최적화된 알고리즘이다.
프레임 워크에서 스크립트 작성 == 각정 프레임워크에서 직접 모델을 작성하고, 구현하여 최적화하고 할 수 있는 작업
AWS Makertplace에서 알고리즘 받기 == 다른 사람들이 판매하는 알고리즘을 구매할 수 도 있다.
기본 보유 알고리즘 사용 == 기존에 사용하던 알고리즘을 사용할 수 도 있다.
각각의 알고리즘에 대한 도식도는 아래와 같다.
'Cloud > AWS 기초' 카테고리의 다른 글
AWS CodePipeIine 활용하기 part.1(빌드단계완성) (0) | 2022.08.15 |
---|---|
AWS Resource관리(TAG/AWS 비용 관리 도구) (0) | 2022.08.05 |
AWS Sage Maker 활용(AI/ML기능 활용하기) (0) | 2022.08.03 |
AWS ECS(Elastic Container Service) (0) | 2022.07.14 |
Amazon ElasticCache (0) | 2022.06.14 |