Amazon BigDATA part.2

2021. 10. 12. 08:56Cloud/AWS 기초

과거에 있던 전통적인 데이터 분석에 관련된 아키텍쳐 들은 관계형 데이터시작으로해서 데이터로드 되기 전에 정의가 된 스키마데이터 웨어하우스로드한 이 후, 비즈니스 인텔리젼스분석하는게 일반적이다.

 

하지만 이런 상황이 진행되기 위해서는 반드시 스키마정리가 잘 되어 있어야 하며, 대규모의 초기 투자 설비가 필요했다. 이런 방식의 문제점은 여러 데이터가 따로 따로 분산되어 흩어져서 관리가 되는 경우가 많다. 혹은 담당 부서, 서비스 별로 데이터들이 각각 분산되어 데이터간의 격벽(사일로=곡물등을 담아두는 거대한 탑 같은것)가 생길 수 있게 된다.

이렇게 되면 관리 등에 총합적으로 비용이 증가가 되며, 중복 보관 등으로 인한 정확성이 감소, 협업의 저하 등의 문제가 생기게 된다. 

 

이런 잡다한 문제를 해결하기 위해 제안된 것이 Data Lake이다.

 

Data Lake

모든 규모의 정형 및 비정형 데이터를 저장할 수 있는 중앙 집중식 저장소를 마련하고, 이 중앙 집중식에 저장해 두고 다양한 서비스를 목적에 맞게 분석하거나 처리할수 있도록 하자. 라는 개념이다.

 

특징으로는 
모든 데이터를 한곳에 보관할 수 있는 SSOT(Single Source Of Truth, 단일 진실 공급원)를 할 수 있다.

일단 기본적으로 데이터를 저장하고 분석할 때, 처리할 때는 그때 그때 데이터가 처리가 되는 시점에 따라서 스키마를 확인해서 처리하는 방식이다. 정형/반정형/비정형/원시 데이터 등의 다양한 형식을 지원을 할 수 있다. 또한 빠른 데이터 소집, 소비를 할 수 있게 해 주며 저장비용이 저렴하다. 또한 저장과 컴퓨팅의 분리, 보호 및 보안 규칙을 지원할 수 있다.

 

여기서 저장장소로 모든 요구 조건을 생각할 수 있는 것은 S3가 있다. 기본적으로 매우 뛰어난 내구성, 안정성, 확정성을 가지고 있고 사실상 원하는 그 어떤것의 데이터를 그 어떠한 양의 데이터라도 안전하게 저장하고 엑세스할 수 있다.
이렇게 s3에 저장된 데이터를 Athena로 분석할 수 있다.

 

Athena

대화형 쿼리 서비스로서 s3에 들어간 데이터에 대해 테이블로 메핑시키고 메핑된 테이블을 sql로 분석할 수 있게 해준다. 아테나의 처리엔진은 presto, hive를 사용한다

 

이곳에 저장된(메핑된) 서비스로 이미 서비스가 등장했는데 이것이 하이브 이다. 이 아테나도 하이브 메타 스토어의 정보를 그대로 가지고 오거나 글루가 가지고 오는 스키마 추론 기능을 이용해 카탈로그라고 하는것을 만들 수 있으며 이 데이터 카탈로그는 하이브의 메타스토와 똑같다. 이런 행동을 통해 sql을 통해 쿼리를 수행할 수 있게 해준다

Quicksight
클라우드 기반의 bi서비스다. 수 십 만 명의 사용자에게 확장되고 조직의 모든 이에게 풍부한 BI기능을 제공한다. 비용면도 기존에 비해 10/1로 정말 싼 가격을 제공한다. 별도의 라이센스 구입이 아니라 구독형태라서 쓸 필요할 땜반 사용하고 필요가 없으면 구독을 해지하는 형태로 운영할 수 있다. 기존의 domo tableau qlik등과같은 파트너aws와 솔루션 통합할 수 있다. 안전한 공유 및 협업, 대화영 데시 키보드가 있다. autograph를 지원한다.

autograph 는 데이터 형식의 자동탐지와 최적의 쿼리 형성, 적절한 그래프 유형 선택, 그래프 유형 사용자 지정가능, 대단히 빠른 응답 등을 할 수 있고 aws 내, 외부의 솔루션을 통합해서 사용할 수 있다.

정리
s3를 통해서 여러 데이터를 손쉽게 수집할 수 있다. 기존의 sql, no sql, dw와 연동해서 s3의 연동된 에이터를 같이 사용할 수 있다. 여기에 있는 데이터를 분석하고 처리하는데 별도의 솔루션을 설치하거나 혹은 하나하나 열어서 처리하는 대신에 glue와 같은 서비스를 이용헤 손쉽게 매핑할 수 있으며 이렇게 매핑된 정보를 바탕으로 외부에 노출시키는데 gateway등을 사용할 수 있다. 마지막으로 관리와 보완적인 측면으로 iam, kms 등과 같은것을 통해 보안을 추가할 수 있으며 cloudwatch를 통해 로그를 손쉽게 추척할 수 있다 이것은 인프라 관리를 할 필요가 없어지며 유휴자원에 대한 지불이 없다. 사용량에 따라 자동 확장, 가용성 및 내결함성이 기본으로 제공된다.

'Cloud > AWS 기초' 카테고리의 다른 글

AWS EC2 instance 의 운용방식  (0) 2022.02.04
CDN이란? (AWS's CloudFront)  (0) 2021.11.24
Amazon Bigdata part.1  (0) 2021.10.10
AWS Container part.2 (Docker 개요)  (0) 2021.10.04
AWS Container part.1(Container란 무엇일까?)  (0) 2021.10.04