본문 바로가기

Big Data2

AI 전성시대에 버림 받는 데이터가 있을까? 인류는 데이터(유무형의 기록)라는 유산을 상속하여 왔기에 문명사회로 발전했다. 기록이 모든 걸 담지는 못해도 많을 걸 담아왔기에 물려 받은 데이터를 발전의 발판으로 삼았다. 그런데 어느 순간 한 사람이 여러 주제에 걸친 데이터에는 온전한 맥락을 터득하기가 어렵게 되기 시작했다. 정보기술이 발전하여 데이터를 보관하는 비용과 처리하는 비용이 줄어들수록 데이터 생성량은 점점 더 커졌기 때문이다. 데이터 홍수 속에서 허우적대다 일단 손에 들어 온 데이터를 맥락 없이 따르거나 데이터를 내던지고 구원자를 찾아 나서게 될 뻔했던 게 2010년 즈음의 상황이었다. 뭔가 지침이 필요한 시점이었다. Data swamp를 거론할 정도로 기록 폭증으로 벌어지는 혼란을 피하려면 기록을 한 취지가 드러나야 한다. 거창한 얘기로 .. 2019. 5. 12.

SQL on Hadoop 솔루션 선택 도움말 Hadoop에 SQL로 Query한다 하면 Hive가 기본이지만, 비즈니스 니즈에 따라 Impala를 위시한 SQL on Hadoop 솔루션이 많이 나왔습니다. 오픈소스부터 상용, 상용 서브스크립션 제품까지 다양합니다. Hive는 배치 잡에 걸맞는 질의 수단이기 때문에 여타의 SQL on Hadoop 솔루션은 질의결과를 바로(빨리) 받아야 하는 비즈니스 니즈를 충족하고자 나왔다고 해도 무리가 없겠습니다. Hive on Tez, Hive on Spark가 발전하는 중이지만 아직은 다른 SQL on Hadoop 솔루션들이 빠릅니다. Hive보다 빨라야 존재의의가 있다고도 하겠습니다. 민감하기도 하고, 변동이 빠르기도 한 분야라 상용 솔루션 이름은 굳이 언급하지 않겠습니다. SQL on Hadoop을 구분하는.. 2016. 9. 27.

이전 1 다음

티스토리툴바