본문 바로가기

BI172

개인정보 보호를 감안한 데이터 생성 계획 이제 빅데이터까지 언급하지 않더라도 데이터의 중요성에 대한 공감대는 확고하다. 한국 기업은 로그를 최소기간만 남기곤 했는데, 사물인터넷과 인공지능 시대를 맞으며 일단 로그를 만들어 저장해 두자는 곳도 많아진 듯한 느낌을 받았다. BI와 빅데이터 업무를 해오면서, 보유한 데이터가 별로 없거나 활용가치가 떨어지는데도 유용한 데이터가 많은 줄 아는 기업을 보고 허탈한 적이 몇 번 있었지만, 최근에는 너무 고민 없이 일단 데이터를 쌓아 두는 곳도 보여 걱정스럽다. '업'에 대한 고민 없이 모바일 기기나 각종 센서로부터 raw data를 받아 중앙의 서버에 쌓는다고 할 때, 아무리 클라우드가 저렴하며 저장장치 값이 떨어졌다고 해도 비용 낭비일 뿐이다. 어지간한 대기업이 아닌 이상에는 raw data가 있다는 안도.. 2017. 8. 27.
한국에서 빅데이터 허구 운운은 물정 모르는 얘기 나 역시 빅데이터가 학술용어가 아니라 마케팅 구호인 특성이 강하며 인공지능 바람 역시 상술에 휘둘린다고 본다. 그러나 한국에서 빅데이터와 인공지능을 폄하할 자격을 가진 기업 수는 손에 꼽을 정도 밖에 안 된다. 까놓고 얘기해서 어딜 감히 폄하하냐고 비아냥 거리고 싶다. 반도체 등 몇몇 장치산업의 기업이나 센서 데이터를 많이 가지고 있을까, 나머지 한국 기업은 영업비밀이랍시며 데이터를 '제대로' 저장해서 써먹지 못하는 게 태반이다. 을 혹은 정병 입장으로 컨설팅하는 업체가 고객사에 "(바로) 쓸 만한 데이터가 영 없는데요?" 할 수는 없는 노릇이니, 재무수치나 보는 경영진은 그저 자기 회사에 데이터가 많은데 활용만 못하는 줄로만 안다. 빅이든 아니든 데이터 분석가들과 IT 인력들만 벙어리 냉가슴을 앓는다... 2017. 8. 22.
엑셀에서 몬테카를로 시뮬레이션으로 원주율 구하기 최근에 새삼스럽게 '몬테카를로 시뮬레이션'을 다시 파고 있다. 추론과 예측에 효과적인 방법임을 절감했기 때문이다. 복습 삼아 몬테카를로 시뮬레이션의 유명한 예제 중에 '원주율 구하기'를 찾아 봤다가, 재미 삼아 엑셀에서 VBA 없이 구현해 보았다. 난수로 점을 찍어 정사각형 넓이와 해당 정사각형의 한 변의 길이와 동일한 길이의 지름인 원의 넓이의 비로서 원주율 구하기 출처: 몬테카를로 방법으로 원주율 구하기 (http://www.playsw.or.kr/repo/cast/109) 먼저 정말 친절하게 설명한 몬테카를로 방법으로 원주율 구하기(http://www.playsw.or.kr/repo/cast/109) 문서를 꼭 참조하길 바란다. 진국은 이미 저 문서에 있다. 내가 하려는 건, 프로그래밍과 무관하게 .. 2017. 8. 7.
인공지능은 언제쯤 일자리를 가로채는 지니가 될까? 인공지능이 암을 진단하는 의사 노릇까지 한다는 기사가 났다. 인공지능이 일자리를 없앤다는 기사는 부지기수다. 과연 인공지능 기술이 발전해서 사람의 일자리가 사라지게 될까? 사람 일자리가 사라지는지 여부는 다음에 하기로 하고. ☺ 2017년 5월 기준 인공지능은 잘 알려졌다시피 프로 바둑 기사를 너끈히 이기고 유명한 화가 화풍으로 그림을 그리지만, 사람 말을 여전히 다 못 알아들으며, 힘든 농사일은 여전히 사람 손을 필요로 한다. 당분간 인공지능과 로봇을 빌미로 한 대량해고는 없을 거라고 본다. 과연 언제쯤 인공지능이 디스토피아 드라마틱하게 사람의 일자리를 가로 채게 될까? 시기는 특정하지 못하겠지만, 진척이 보이는 지표가 일단 두 가지 있긴 하다. 1) 로봇 청소기의 청소능력 로봇 청소기가 정말로 청소를.. 2017. 5. 25.
분석가에게 멍석 깔아주기 데이터 웨어하우스는 유용하지만 추출/가공/적재 과정이 간단하지 않고 정형 데이터일 수 밖에 없어 분석가의 니즈를 충족하지 못했다. 분석가의 니즈를 그대로 반영하자면 데이터가 어그러지거나 중복 적재가 많아질 수 밖에 없다. 이를 해결하고자 꾸준히 대안이 나왔기에 관련한 오픈소스와 상용 솔루션의 완성도는 이미 상당하다고 본다. 1. Data federation 도입 - 데이터 가상화(Virtualization)와 비슷한 개념이다. 오라클 DB의 테이블과 Hive의 테이블과 같이 이기종 DB 간 조인도 가능하다. Linked DB에 비해 안정적이고, 데이터 소스가 훨씬 다양하다. - 데이터를 활용하는 관점에서 View를 만드는 것처럼 읽어 간다. 데이터 마트를 만드는 방식에 비하면 한계가 있겠지만 분석가 입장.. 2017. 1. 19.
신경 쓸 게 많은 인공지능 도입 2017년 기준으로 인공지능 봇을 우리 사회의 다양한 영역으로 확산하려는 움직임이 많다. 인공지능을 고객과의 직접 소통에 이용하는 시도 역시 다양한데, 이제는 법적 책임과 관련한 새로운 리스크를 감안해야 한다. 인공지능의 비용 절감에 대한 기여는 분명하지만 바로 보이지 않는 비용요소 역시 자명하다. 버그를 포함하여 사전에 파악하지 못한 사항은 인공지능이 오작동하도록 만든다. 그에 따른 추후 비용은 누군가 지불해야 한다. 독과점 기업일수록 이 비용을 고객에게 전가하려 들 것이다. 그렇다면 인공지능에게 전적으로 일을 맡기기보다는 사람을 요소 요소에 배치하면 어떨까? 혹시 모를 오작동과 예측 불가능한 외부효과에 있어, 사람의 대처능력은 괜찮은 편이다. 사람은 꽤 쓸 만한 존재다. 칼럼 | 최종 책임은 누가? .. 2017. 1. 17.
가상현실을 통해 데이터 품질을 관리하는 아이디어 컴퓨터로 저장한 데이터는 가시적이지 않다. 맨눈으로 면면을 보기 힘들다. 데이터가 얼마나 쌓였는지 정도는 단순한 질의나 대시보드를 통해 알지만, 쓰레기값이 들어갔는지 내가 찾는 그 데이터인지는 바로 보이지 않는다. 데이터가 많이 쌓일수록 의도한 데이터가 어디에 있는지 알기 힘들어진다. 데이터 카탈로그, 메타데이터 관리를 위시한 데이터 품질관리는, 필연적으로 발생하는 데이터 품질 저하라는 한계를 극복하려는 노력을 일컫는다. 데이터 품질 관리를 표방하는 솔루션 업체마다 관점이나 수준은 다르더라도 데이터 검색/탐색, 주석/문서화, 요약/분포, 생명주기와 같은 기능을 제공한다. 이렇게 데이터를 자산으로서 관리하는 솔루션들은 제법 긴 역사를 거 꽤 높은 완성도를 보이지만, 그러한 솔루션을 도입하더라도 관리역량 자.. 2016. 12. 7.
SAS에서 이전 연월 문자열 만들기 고객사 분석가들이 쓰는 SAS 매크로에서 연월 문자열(예: 2016년 10월 → 201610)을 쓰는 일이 많았다. 분석가가 만든 SAS 모델을 배치 잡으로 만들기 위해 썼던 구문을 블로그에 보관해 둔다. 개발 경험이 있으니 이런 게 당연히 됨을 잘 알지만, SAS 문법이 생소해서 좀 헤맸다. /* %LET PREV_MON = 201608; /* 대상연월: 수기입력 */ DATA _NULL_; /* 대상연월: 실행일의 전월 */ CALL SYMPUT(' PREV_MON', PUT(INTNX('MON', DATE(), -1), YYMMN6.)); RUN; %PUT PREV_MON= &PREV_MON.; [Log] 25 DATA _NULL_; /* 대상연월: 실행일의 전월 */ 26 CALL SYMPUT('.. 2016. 12. 1.
전자상거래라는 말이 어색해진다 알리바바 그룹의 마윈 회장은 전자상거래라는 낱말이 사라질 거라고 예언했다. 비유적인 표현이다. 정보기술 기반의 전자상거래라 몰락한다기보다는 전자상거래가 아닌 상거래는 없어진다는 의미로 받아들여야 한다. 이런 발언이 벌써 가능한 배경은 중국이라는 특수한 환경때문이라고 본다. 중국에는 드럼통 하나 달랑 가진 군고구마 노점상도 알리페이 같은 간편결제 시스템을 자연스럽게 쓴다. 중국에 위조지폐가 많으니 어쩌니 하는 근원적 배경은 더 따질 이유가 없다. 곧 '상거래 = 전자상거래'인 나라가 등장하고 그런 흐름에 제동을 걸기 힘들어진다는 공감대가 중요하다. CRM도 비슷한 맥락으로 저변 깊숙히 자리잡지 않을까 한다. 노점상도 스마트폰만 가지고 있으면 마일리지부터 개인화 프로모션까지 서비스할 세상이 멀지 않아 보인다.. 2016. 10. 24.
빅데이터 열풍은 끝났을까요? 기술용어라기 보다는 마케팅 구호에 가까웠던 빅데이터는 여전히 폄훼의 대상이어서는 안 됩니다. 최소한 한국에서는요. 최근 몇 년 간 '무턱대고 데이터를 저장해서는 빅데이터를 통한 효용을 얻지 못한다'는 얘기를 들을 때마다 답답해지는 마음을 달랠 길이 없었습니다. 삼성전자나 이동통신업계를 빼면 페타바이트 규모로 데이터를 저장하는 기업을 대기업 중에서도 찾기가 어렵습니다. 걱정스러울 정도로 데이터를 많이 저장하는 한국 기업이 정말 있는지 궁금합니다. 한국 대기업의 고질적인 모험회피 성향은 데이터 활용에도 그대로 영향을 미치기 때문에 어지간한 분석가들이 마음 놓고 분석할 만한 환경을 갖춘 곳은 드물기만 합니다. 그나마 최근에는 PC 성능이 좋아져서 분석가 개인적인 시도가 쉬워졌습니다만, 데이터 사일로 현상을 부.. 2016. 10. 18.
SQL on Hadoop 솔루션 선택 도움말 Hadoop에 SQL로 Query한다 하면 Hive가 기본이지만, 비즈니스 니즈에 따라 Impala를 위시한 SQL on Hadoop 솔루션이 많이 나왔습니다. 오픈소스부터 상용, 상용 서브스크립션 제품까지 다양합니다. Hive는 배치 잡에 걸맞는 질의 수단이기 때문에 여타의 SQL on Hadoop 솔루션은 질의결과를 바로(빨리) 받아야 하는 비즈니스 니즈를 충족하고자 나왔다고 해도 무리가 없겠습니다. Hive on Tez, Hive on Spark가 발전하는 중이지만 아직은 다른 SQL on Hadoop 솔루션들이 빠릅니다. Hive보다 빨라야 존재의의가 있다고도 하겠습니다. 민감하기도 하고, 변동이 빠르기도 한 분야라 상용 솔루션 이름은 굳이 언급하지 않겠습니다. SQL on Hadoop을 구분하는.. 2016. 9. 27.
로봇과 일자리로 경쟁하게 될까? 2016년 6월 기준으로, 하루 정도면 온전히 배울 만한 일이라면 5년 안에 로봇으로 대체 가능하지 않을까 한다. 단, 온전히 배운다는 얘기는 어지간한 변동사항에 대처 가능한 수준이라는 뜻이다. 폐지 줍기는 간단해 보이지만, 실은 감안할 일이 많다. 2016년 수준인 로봇이 하기는 마땅치 않다. 당분간 정말 단순해서 인간이 맞춰주는 게 가능한 일[각주:1]만 로봇이 대체해 나갈 것이 분명하다. 위 영상에 나오는 짐꾼 로봇 Leo는 정말 로봇이라고 불러야 하나 싶을 정도로 단순하다. 짐 실어주면 정해진 곳까지만 안전하게 자동으로 가는 기계도 로봇으로 부르자는 공감대를 가져 줘야 Leo도 로봇이라고 할 만하다. 현재로서는 인간이 어쩌지 못하는 영역을 로봇으로 대처하려는 움직임도 많다. 위 영상에 나오는 EM.. 2016. 6. 30.
이제 마케팅만이 아닌 인공지능 서비스 아래 링크는 LG경제연구소가 발간한 '인공지능 플랫폼이 경쟁하고 있다' 보고서입니다. 인공지능, 플랫폼 경쟁이 시작되고 있다 http://www.lgeri.com/industry/general/article.asp?grouping=01030100&seq=269 읽다 보시면 뭔가 낯익은 얘기일 겁니다. 작년까지는 '비정형 데이터를 다루는 빅데이터'라는 이름으로 많이 논하던 사례들입니다. 단순한 장삿속은 아닙니다. 데이터는 이제 충분히 저장한다는 전제 하에(양과 속도/빈도 측면에서 모두), 활용으로 포커스가 옮겨 간 것이라고 봅니다. 세상은 참 빨리 달려가고 있습니다. 2016. 5. 18.
인공지능 시대에 인간은 쓸모있을까? 2016년 기준으로 기계학습은 아직 인간을 지배할 만큼 광범위한 주제를 감당하지는 못하는 수준이다. 그럼에도 몇몇 유명인사는 인공지능이 인간을 지배하면서 디스토피아를 불러 올 것이라고 논평하여 장삼이사들은 벌써부터 실업자가 되어 나락으로 빠질까 걱정이다.​(1) 아마도 고도로 발달한 인공지능 입장에서는 인류가 원리는 불명확하지만​ ​제법 괜찮은 결과물을 내놓는(2) 의사결정 지원 도구일 수 있다. 범용적인 훈련만으로도 캡차와 같이 불규칙한 패턴을 읽을 줄 아는 센서 노릇이 가능한 편리한 도구로 여길 만하다고 본다. 인건비와 컴퓨팅 파워 유지비를 비교하여 효익이 좋은 쪽을 택한다 해도 인간을 써먹는 게 나은 때가 꽤 많지 않을까?​(3) 불확정성이 짙은 상황에서 인간이 발휘하는 직관은 이제까지와 같이 정확.. 2016. 4. 16.
Excel 필수 추가기능 Inquire 중요: Windows RT PC의 Office에서는 이 기능을 사용할 수 없습니다. Inquire는 Office Professional Plus 및 엔터프라이즈용 Microsoft 365 앱 버전에서만 사용할 수 있습니다. 사용 중인 Office 버전이 궁금하신가요? 엑셀 2013 버전부터 Inquire라는 쓸모있는 기능을 제공한다. 처음부터 보이지는 않고 옵션에서 추가 기능을 켜야 나온다. '해찾기'같은 고급분석 기능은 쓸 일이 없더라도 Inquire만큼은 쓸 일이 꽤 있을 것이기에 켜 두기를 권한다.Inquire 추가 기능 켜기https://support.office.com/ko-kr/article/Inquire-추가-기능-켜기-6bc668e2-f3c6-4729-8ce1-75ea20aa9d90 Inq.. 2016. 3. 25.
빅데이터 아이템 (2016년 2월) 아마 여러 사람들이 구상했을 만한 빅데이터 아이템들인데, 실제 구현한 사례는 생각보다 많지 않다. PoC든 뭐든 동원하여 경험을 쌓고 나서 솔루션으로 개발하거나 서비스 형태로 제공해야 고객과 win-wn 한다. 1. OO공항 및 경쟁 공항 평판 조사 1) 개요 인터넷에 올라온 OO공항과 경쟁 공항에 대한 평판을 분석하여 강약점을 도출 → 서비스 경쟁력 제고 2) 대상 데이터 - 소셜 미디어: 페이스북(공개내역: 불만사항은 널리 알리고자 비공개로 두지 않는 편), 트위터 - 경쟁 공항의 국가 별 인기 소셜 미디어 추가 - 블로그, 텀블러 - 기존 뉴스 미디어 3) 구축 방안 - 대상 데이터 파악 후, 크롤링 실시 - 공항 평판에 대한 Taxonomy 구축 - 시험 기간을 거쳐 감성 분석 및 불만 사항 수집.. 2016. 3. 8.
예측의 생활화 의사결정 시점을 놓치지 않기가 정보의 정확성을 100%로 만들기보다 중요하다. 리포트의 적시성과 정확성의 비중을 정하는 기준은 의사결정이 필요한 때에 바로 쓸 수 있는지 여부이다. 대기업 같은 거대한 조직은 물량과 시장 바깥의 요소를 동원하여 느린 의사결정을 극복하지만, 중소/중견기업 조직은 빨리 움직여서 대기업을 따돌려야, 계속 먹고 살 만한 시장점유율을 지켜낼 수 있다. 이제는 대기업이라고 해도 마냥 느긋하게 정확성만을 추구하기는 힘들다. 최근 몇 년 간 계속 전례가 없는 세상이 펼쳐지는 중이다. 각종 FTA를 포함하여, 불안정한 국내외 정치지형에 따른 리스크로 인해, 대기업이 현금을 쌓아 두기만 하며 움츠리기만 하는 형국이 된지 오래다. 대기업도 빨리 판단하고 빨리 시도하며 다시 빨리 판단하여 방향.. 2016. 3. 5.
어느 식당 체인의 데이터 단상 우연한 기회에 유명 식당 체인의 고객 마일리지 데이터 분석결과를 보았다. 그 동안 주안점으로 여겼던 분석요소와 실제 데이터 사이에는 약간의 차이가 있었으며, 시사점을 도출하기가 힘들었다. 여성: 여성 고객의 비율이 예상 대로 높았다. 남자들은 평소에 어디에서 밥을 먹는 걸까? 연령대: 10~20대 고객이 적지는 않은데 방문빈도가 최고인 30~40대에 비해서는 훨씬 뜸하게 온다. 구매력의 문제일까? 최근 들어 특히 편의점 점심 메뉴가 시장을 잠식하는 상태이기도 하다. 50대 고객부터는 급격히 줄어들고, 60대는 정말 적다. 매스 미디어 마케팅을 적지 않게 하는데도 이 정도라고 하면, 마케팅 자체의 문제라기 보다는 한국사회의 구매력에 문제가 있는 게 아닐까 싶다. 여행지: 굳이 여행지에서 이곳을 찾아야 할까.. 2016. 3. 4.
반응형