본문 바로가기

BI/빅데이터26

빅데이터 열풍은 끝났을까요? 기술용어라기 보다는 마케팅 구호에 가까웠던 빅데이터는 여전히 폄훼의 대상이어서는 안 됩니다. 최소한 한국에서는요. 최근 몇 년 간 '무턱대고 데이터를 저장해서는 빅데이터를 통한 효용을 얻지 못한다'는 얘기를 들을 때마다 답답해지는 마음을 달랠 길이 없었습니다. 삼성전자나 이동통신업계를 빼면 페타바이트 규모로 데이터를 저장하는 기업을 대기업 중에서도 찾기가 어렵습니다. 걱정스러울 정도로 데이터를 많이 저장하는 한국 기업이 정말 있는지 궁금합니다. 한국 대기업의 고질적인 모험회피 성향은 데이터 활용에도 그대로 영향을 미치기 때문에 어지간한 분석가들이 마음 놓고 분석할 만한 환경을 갖춘 곳은 드물기만 합니다. 그나마 최근에는 PC 성능이 좋아져서 분석가 개인적인 시도가 쉬워졌습니다만, 데이터 사일로 현상을 부.. 2016. 10. 18.
SQL on Hadoop 솔루션 선택 도움말 Hadoop에 SQL로 Query한다 하면 Hive가 기본이지만, 비즈니스 니즈에 따라 Impala를 위시한 SQL on Hadoop 솔루션이 많이 나왔습니다. 오픈소스부터 상용, 상용 서브스크립션 제품까지 다양합니다. Hive는 배치 잡에 걸맞는 질의 수단이기 때문에 여타의 SQL on Hadoop 솔루션은 질의결과를 바로(빨리) 받아야 하는 비즈니스 니즈를 충족하고자 나왔다고 해도 무리가 없겠습니다. Hive on Tez, Hive on Spark가 발전하는 중이지만 아직은 다른 SQL on Hadoop 솔루션들이 빠릅니다. Hive보다 빨라야 존재의의가 있다고도 하겠습니다. 민감하기도 하고, 변동이 빠르기도 한 분야라 상용 솔루션 이름은 굳이 언급하지 않겠습니다. SQL on Hadoop을 구분하는.. 2016. 9. 27.
빅데이터 아이템 (2016년 2월) 아마 여러 사람들이 구상했을 만한 빅데이터 아이템들인데, 실제 구현한 사례는 생각보다 많지 않다. PoC든 뭐든 동원하여 경험을 쌓고 나서 솔루션으로 개발하거나 서비스 형태로 제공해야 고객과 win-wn 한다. 1. OO공항 및 경쟁 공항 평판 조사 1) 개요 인터넷에 올라온 OO공항과 경쟁 공항에 대한 평판을 분석하여 강약점을 도출 → 서비스 경쟁력 제고 2) 대상 데이터 - 소셜 미디어: 페이스북(공개내역: 불만사항은 널리 알리고자 비공개로 두지 않는 편), 트위터 - 경쟁 공항의 국가 별 인기 소셜 미디어 추가 - 블로그, 텀블러 - 기존 뉴스 미디어 3) 구축 방안 - 대상 데이터 파악 후, 크롤링 실시 - 공항 평판에 대한 Taxonomy 구축 - 시험 기간을 거쳐 감성 분석 및 불만 사항 수집.. 2016. 3. 8.
어느 식당 체인의 데이터 단상 우연한 기회에 유명 식당 체인의 고객 마일리지 데이터 분석결과를 보았다. 그 동안 주안점으로 여겼던 분석요소와 실제 데이터 사이에는 약간의 차이가 있었으며, 시사점을 도출하기가 힘들었다. 여성: 여성 고객의 비율이 예상 대로 높았다. 남자들은 평소에 어디에서 밥을 먹는 걸까? 연령대: 10~20대 고객이 적지는 않은데 방문빈도가 최고인 30~40대에 비해서는 훨씬 뜸하게 온다. 구매력의 문제일까? 최근 들어 특히 편의점 점심 메뉴가 시장을 잠식하는 상태이기도 하다. 50대 고객부터는 급격히 줄어들고, 60대는 정말 적다. 매스 미디어 마케팅을 적지 않게 하는데도 이 정도라고 하면, 마케팅 자체의 문제라기 보다는 한국사회의 구매력에 문제가 있는 게 아닐까 싶다. 여행지: 굳이 여행지에서 이곳을 찾아야 할까.. 2016. 3. 4.
직관을 버리라는 얘기가 아니다 데이터 분석결과에 근거하여 의사를 결정해야 한다고 말하면 의례적으로 나오는 반론 패턴이 있다. 데이터를 모을 시간이 없다.직관을 이기지는 못한다.분석해 봐야 부정확하다. 잭 웰치 얘기라면 나도 동의한다. (LGERI의 일단 추천) 의사결정 시기를 놓치면 정확성이 무슨 소용이겠나? 그러나 시기를 놓치지 않은 성공적인 의사결정을 위해 직관을 중요시 한 잭 웰치조차 분석이 무익한 작업이라 한 적은 없다. 아마도 그가 두려워한 것은 의사결정에 대한 책임을 지지 않기 위해 공신력 있는 근거를 얻고자 금쪽같은 시간을 분석한답시며 흘려버리는 위선이 아니었을까 한다. 위선을 배제하고 나면 시간과 자원이 허락하는 한 분석을 통해 판단의 근거를 갖춰야 한다. 언뜻 머리를 스치고 지나간 상념이나 자기 이해에 데이터를 꿰어 .. 2014. 7. 1.
빅 데이터 붐업 관련 제안 From: wizmusa Sent: Thursday, June 26, 2014 8:10 PM To: 고객사 Subject: [빅 데이터] 붐업 관련 제안 이번에 본사 대상의 빅 데이터 세미나를 보고 다시 생각이 났습니다. 빅 데이터 분석을 보다 살갑게 느끼게 하기 위한 일환으로 영화 ‘머니볼’의 상영회를 추진하는 건 어떨까요? 기존의 평가지표 외에 저평가 됐거나 활용도가 낮았던 지표들을 재발견하여, 가난한 메이저리그 구단이 크게 성공한 사례를 다룬 영화이니 시사하는 점이 많을 것이라 봅니다. 영화 ‘머니볼’에서 배우는 BI 애널리틱스 교훈 http://www.ciokorea.com/news/10295 살람은 머니볼에 설명된 기법들이 벤더 선택이나 포트폴리오 최적화와 같은, 기업 내부의 핵심 비즈니스 프로.. 2014. 6. 27.
빅 데이터는 이미 있던 기술의 활용도를 높인다 아래 그림은 삼성전자 갤럭시 S2의 뮤직 플레이어에 있는 '뮤직 스퀘어'라는 메뉴의 화면이다. 스마트폰 안에 있는 음악 파일을 메타데이터가 아니라 음파를 분석하여, 신나는-차분한, 열정적인-즐거운이라는 기준을 통해 5x5 가지로 분류해서 보여준다. 사용자는 자기 기분에 따라 25개 그룹 중 하나를 선택하여 듣는다. 관련 논문을 감안할 것도 없이 최첨단 기술이 쓰였다고는 못할 기능이다. 이미 위의 기술은 음원 관련 서비스 회사들이 알음 알음 도입한지 오래일 것이다. 다만 뮤직 스퀘어 처럼 이미 보유한 음악 파일만을 분류하는 것으로는 사업성이 부족하고, 연령과 성별 같은 인적사항을 더하거나 사회적 이슈를 감안하여 추천 시스템을 더욱 보강하는 데에 통찰력을 발휘하려 애를 쓰는 상황일 걸로 본다. 이렇게 빅 데.. 2014. 6. 17.
일반 기업에서 하둡은 나중 얘기입니다 기업이 RDB나 log의 형태로 저장하는 각종 정형 데이터는 처음부터 하둡에 옮길 필요 없이 각 데이터 소스에서 모델에 대한 가설을 검증한 후에 하둡으로의 적재를 생각해도 늦지 않습니다. 검증 작업은 데이터에 해박한 사내/사외 전문가가 SAP Lumira, Cognos Insight과 같은 현업 사용자를 감안한 분석도구 아니면 엑셀을 써서 수행하면 충분합니다. 일일이 IT 부서에 의뢰해서 데이터 소스를 파악하고자 하면, 절차의 번잡함으로 인해 기존의 분석 틀을 벗어나지 못할 것이므로, 기업의 데이터를 무조건적으로 하둡에 '전부' 복사해 놔야 혁신을 이끌어낼 만한 분석이 가능하다고 보는 의견도 있기는 합니다. 이런 걸 해낼 비용의 조달은 일단 둘째 치고, 어찌 어찌 실제로 만들어 놨다 치더라도 저 데이터 .. 2014. 2. 3.
반응형