본문 바로가기
BI

분석가에게 멍석 깔아주기

by wizmusa 2017. 1. 19.

데이터 웨어하우스는 유용하지만 추출/가공/적재 과정이 간단하지 않고 정형 데이터일 수 밖에 없어 분석가의 니즈를 충족하지 못했다. 분석가의 니즈를 그대로 반영하자면 데이터가 어그러지거나 중복 적재가 많아질 수 밖에 없다. 이를 해결하고자 꾸준히 대안이 나왔기에 관련한 오픈소스와 상용 솔루션의 완성도는 이미 상당하다고 본다.


1. Data federation 도입
 - 데이터 가상화(Virtualization)와 비슷한 개념이다. 오라클 DB의 테이블과 Hive의 테이블과 같이 이기종 DB 간 조인도 가능하다. Linked DB에 비해 안정적이고, 데이터 소스가 훨씬 다양하다.
 - 데이터를 활용하는 관점에서 View를 만드는 것처럼 읽어 간다. 데이터 마트를 만드는 방식에 비하면 한계가 있겠지만 분석가 입장에서는 이 정도만 되어도 숨통이 트인다.

 - 단순히 여유공간 확대만이 아니라, 적재작업이 줄어들므로 시스템 자원에도 여유가 생긴다.

2. 분석가 셀프 서비스
 - 분석가에게 쓸 만한 크기의 저장소(서버)를 제공해야 효과적이다.

 - Apache Zeppelin 노트북과 같은 도구를 권장한다. 웹 화면 안에서 Linux OS Shell script, R, Python, SAS 등을 병용하여 분석의 한 사이클을 한 노트북(화면)에 볼 수 있게 한 인기 있는 솔루션이다. 컨텐츠의 공유와 재활용도 쉽다. Jupyter 노트북도 좋다.
 - 분석만을 위해서라면, 이전처럼 Data warehouse/mart에 데이터를 정제하여 올리지 않고(Data Lake 개념) 분석가들이 데이터 소스에 붙어서 목적에 맞게 가공하는 방식이 더 효율적일 수 있다. (Paxata와 같은 데이터 Prep. 솔루션 검토 권장) 이후에 활용도가 높아지면 틀을 갖추어 DW/DM에 올려도 충분하다.


[기타 참고자료]


1. 태블로에서 작성한 2017년 상위 10대 빅데이터 트렌드 보고서
   http://www.techsuda.com/archives/8656
   Hadoop/Spark는 명실상부한 엔터프라이즈 표준


2. 가장 흔해빠진 7가지 하둡 및 스파크 프로젝트

   http://www.itworld.co.kr/news/95149

   전문 분석, Data Lake로서의 하둡, 실시간 적재/스트리밍/복합 이벤트 분석, SAS 대체/증강


반응형