Big Data (빅데이터란)?

2021. 8. 21. 16:32IT기초/IT기본용어

2017 5월 영국의 “the economist”에 따르면 세계에서 가장 가치 있는 자원은 이상 기름이 아니라 Data이다.” 라는 선언을 했고 이 선언은 2021년 현재에도 막강한 힘을 가지고 있다. 기업에게 있어서 데이터 라는 것은 아주 중요한 전략적인 자산이다. 만약 비즈니스에서 일어나는 모든 데이터를 저장하고 제공하고 분석할 수 있다면, 그래서 의사결정이나 통찰을 얻는 방법까지 데이터를 활용할 수 있다고 하면 굉장히 많은 것들이 바뀌고 가치를 얻을 수 있다.

 

그럼 일반적으로 말하는 데이터와 빅 데이터의 차이는 무엇일까?

일반적으로 데이터를 처리하는데 기존의 데이터와 달리 볼륨 속도 다양성 3가지가 영향을 미쳐야 한다.

볼륨 == (quantity)가 기존처리로 처리할 수 없을 정도로 많다.

속도 == 원하는 시점에 원하는 결과값을 처리할 수 없을 정도로 충분한 속도가 안 나온다.

다양성 == 처리할 수 없을 정도로 정형화 되지 않은 수없이 많은 다양한 데이터가 있다.

 

그럼 빅데이터는 왜 중요하고 수집/관리 해야할까?

과학 기술이 발전함에 따라 it환경과 점점 더 밀접하게 관련이 있다. 이로 인해 데이터의 양(단순 수집량 등)과 질(주요정보, 유형 등)이 급격하게 증가하고 있으며 이것은 산술적으로는 매 5년마다 10배 이상 성장을 하고 있다. 또한 앞으로 몇 년 안에 최소 1000배 이상으로 확장될 것이라 예상한다.

 

이에 맞추어 데이터를 분석하는 데이터 분석기술도 빠르게 발전하고 있으며 머신러닝까지 포괄하는 데이터 분석기술들이 등장하고 있다. 하지만 가장 중요한 것은 규모, 분석, 니즈에 따라 이런 데이터 분석 기술 등을 적절하게 활용할 수 있어야 한다.

 

특히 오늘날의 경우 데이터의 다양성과, 용량 등 모든 것을 통합하고 안전한 방식으로 모든 사용자가 데이터에 접근할 수 있도록 지원해야한다. 또한 분석에 대한 요구가 실시간으로 예측, 확장성까지 갖추어야 하는데 이러한 모든 내용을 어플리케이션에서 활용하고 적용, 통합해야 한다.

 

1. 관계형 데이터베이스

 

주로 표와 엑실 등의 정말 단순한 텍스트로 자료가 저장이 되며 이런 방법을 플랫 데이터 라고 명칭한다.

 

    속성 어튜리뷰트  
이름 사는곳 나이 성별 참석유무
튜플 홍길동 서울 42 O
  김철수 경기도 50 O
  이영희 제주도 21 X

 표1. 플렛데이터 예시

각각 가로를 행, 튜플 이라고 명칭하고 세로를 열, 속성, 어튜리뷰트 라고 지칭한다

행과 열을 합쳐서 테이블 이라고 명명한다.

 

 이렇게 정제된 데이터를 이용해 다양한 통찰(인사이드)를 끄집어 낼 수 있다. 이런 분석작업을 좀 더 효율적으로 도와주는 언어가 있는데 "SQL 정형 쿼리 언어"라는 것이 있다. 다양한 플렛폼(MySQL, MS Access, Oracle, Sybase, Informix, Amazon RDS, Amazon Aurora 등등...)에서 사용할 수 있으며 익숙한 DB뿐아니라 익숙하지 않은 여러 빅데이터 등에서도 사용되고 있다.

 

이런 SQL을 사용하면 데이터 액세스, 기술, 데이터 정의, 조작, 쿼리 등을 할 수 있으며

다른 언어에 삽입, 테이블 생성삭제, 테이블, 프로시저 및 뷰에 대한 권한설정등 내부의 함수를 이용해 좀 더 복잡한 자료를 처리할 수 있다.

 

대부분의 관계형 데이터베이스는 ACID라는 것을 준수하며 주로 필요한 경우로는 금융/개인 정보 혹은 규제 요건에 관해서 작업시 필요하다.

 

Atomicity 원자성 

트렌잭션이 "모두" 실행되거나 혹은 실행되지 않는다.

Consistency 일관성

유효한 데이터만 저장이된다.

Isolation 격리성

트랜잭션은 서로 영향을 끼치지 않는다.

Durability 내구성

작성된 데이터는 사라지지 않는다.

 

 

2. NoSQL

비 관계형 데이터베이스이다.

no라고해서 SQL을 사용하지 않는다 라는 의미가 아닌 sql따로 혹은 함께 사용하며 sql에서 할 수 없는 단점을 보안하는 용도로 많이 사용하는 데이터베이스이다. 주로 분산환경에서 적합하며 전통적인 SQL이 테이블 중심의 스키마로 구성되어 있는것에 비해 다양한 데이터 형태를 표기하기 위해 Json형태의 양식을 사용할 때가 많다.

JSON 양식은 다음과 같다.

 

{

           이름 : 홍길동

           나이 : 21살

           성별 : 남자

           사는 곳 : 서울

}

 

 

NO sql데이터베이스 유형은 키-값(벨류)스토어, 문서 스토어, 와이드 컬럼 스토어, 그래프 스토어로 4가지가 존재한다.

 

-값(벨류) 스토어

키와 벨류가 쌍으로 구성된 데이터들을 빠르고 효율적으로 저정하고 확장할 수 있는 저장장치이다.

가장 많이 사용하며 대표적으로는 redis, oracle BDB, Amazon Dynamo등이있다.

 

문서 스토어

-값 스토어와 유사하다. 값은 단일 문서를 가지고 있으며 키-값 중 값에 해당하는 부분이 json으로 만들어져 있으며 도큐먼트 스토어라고도 한다. 여러가지 다양한 데이터들을 원하는 형태로 넣을 수 있는 확장성이 있다. mongoDB, couchDB등이 있다.

 

와이드 컬럼 스토어

컬럼의 갯수가 굉장히 많은, 데이터웨어하우징에 가까운 데이터베이스이다. HBase Apache Cassandra가 해당된다.

 

그래프 스토어

주로 데이터사이의 상관관계를 분석하는데 혹은 상관관계를 이용해서 무엇인가를 하는데 사용되는 데이터베이스이다

neo4J, InfoGrid등이 있다.

 

 

데이터 웨어하우징(DW)

언듯보기에는 트렌젝션을 위한 관계형 db와 흡사하며 실제로 사용하는 언어도 sql을 사용하기에 더 비슷해 보인다.

Online Analytical Processing (olap)어플리케이션 분석 와 Online transaction processing(oltp)어플리케이션을 사용할 수 있으며 빠르고 금방 처리할 수 있다.

여러 원본에서 데이터를 추출해서 변환, 로드하는 ETL이라고 하는 프로세스를 가지고 있다. 이 저장된 데이터를 그때그때 분석이나 보고 데이터마이닝을 하는데 사용할 수 있다.

'IT기초 > IT기본용어' 카테고리의 다른 글

모놀리식 VS 마이크로서비스 아키텍쳐  (0) 2021.09.19
CI/CD란???  (0) 2021.09.02
기타 네트워크 관련 용어 및 추가 설명  (0) 2021.08.15
네트워크 주소 체계  (0) 2021.08.15
네트워크란?  (0) 2021.08.14