본문 바로가기

BI/빅데이터24

세세한 길잡이인 '실무로 통하는 인과추론 with 파이썬' 실무로 통하는 인과추론 with 파이썬 데이터 분석에서 정책 수립까지, 이론과 사례 연구를 통한 실용적인 학습법 저자: 마테우스 파쿠레 / 번역: 신진수, 가짜연구소 인과추론팀, 박지용(감수) / 한빛미디어 / 2024-03-05 https://www.hanbit.co.kr/store/books/look.php?p_code=B6208936856 인과추론이라는 분야에 관심이 많아, 입문서에 속하는 '원인과 결과의 경제학'을 읽은 적이 있습니다. (https://wizmusa.tistory.com/1170964450) 방법론보다는 인과추론 자체에 대한 설명 등 제반사항에 집중한 책이라 아쉬웠습니다. 그러다 마침 한빛미디어에서 정말 상세하게 길잡이 노릇을 해주는 '실무로 통하는 인과추론 with 파이썬'을 내.. 2024. 3. 25.
퍼포먼스 마케팅 효과를 극대화하길 마케팅 회사에게 40내 남자로 파악이 되면 무척 자주 보게 되는 인터넷 광고가 몇 가지 있습니다. 정력제, 주식투자 등 일견 내게 보이는 게 타당한 광고가 많긴 합니다. 다만 여자 속옷 광고, 속옷이 아니더라도 노출이 상당한 제품 광고는 왜 따라 다니는지 이유를 알다가도 모르겠습니다. 혈기왕성한(🤭) 남자가 클릭할 만한 이미지입니다만, 그게 광고주에게 무슨 도움이 될까요? 제품이 많이 팔려야지 클릭수, 조회수만 많아지면 무슨 소용이랍니까? 광고 대항사가 광고주를 속이는 사례가 많지는 않을 거라 믿습니다. 인터넷 광고를 하루 이틀 하지 않은 이상 광고주도 조회수만 많아봐야 속 빈 강정임을 잘 알 거라 봅니다. 다만 조회수조차 적으면 웹사이트의 가치 자체가 줄어들므로 광고 클릭을 우선시하지 않을까 합니다. .. 2023. 7. 25.
A~Z가 다 나온 '데이터 품질의 비밀' 데이터 품질의 비밀 - 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드 원제: Data Quality Fundamentals 지은이: 바 모세스, 라이어 개비쉬, 몰리 보르웨르크 / 옮긴이: 데이터야놀자 / 2023/04/10 https://www.decoding.co.kr/product/데이터-품질의-비밀/ IT 일을 하는 내내 데이터와 어울렁더울렁하며 살았기에 데이터 품질과 거버넌스라는 개념 자체에는 익숙합니다. 그럼에도 속시원하게 데이터 품질관리를 했거나 거버넌스를 실현했다고 감히 말하지 못합니다. 업무 관련 법규에 따라 강제로 DBMS 메타데이터 관리를 도입했던 조직은 필요한 데이터를 모두 DB에 넣지 못했고, 그런 관리 솔루션을 도입하지 못했던 조직은 뭐는 'T', 뭐는 '1.. 2023. 5. 23.
몽고DB 6.0 출시 감상 2017년에 롯데백화점 AI 쇼핑 어드바이저 프로젝트에 참여하면서 IBM India의 제안을 통해 몽고DB 3.x 초반 버전을 써보았습니다. 국내 인력만 있었다면 아마 쓸 일이 없었을 거예요. 운이 좋았습니다. 주로 MS SQL server를 썼고 가끔 Oracle과 IBM DB2를 썼다가 NoSQL DB는 처음 썼고 나중에는 운영하며 아키텍처도 개선하면서 몽고DB로 희로애락을 느꼈습니다. 그런 몽고DB가 4.0 버전을 넘기며 어지간한 니즈는 RDB 없이 구현 가능할 정도로 발전했습니다. 더욱 시간이 흘러 6.0 버전이 되면서는 시계열 DB와 검색 영역까지 자리매김을 하려는 모양이군요. 기대가 됩니다. [웨비나] What's New in MongoDB 6.0 August 22 2022 (Monday) 2.. 2022. 8. 20.
빅데이터 뉴스 레터 2022년 1분기 회사에서 공유했던 빅데이터 뉴스레터를 보관차 올립니다. 2022년 빅데이터 주요 트렌드와 데이터레이크 구축 관련한 조언을 간추려 보았습니다. 최근에 한화에서 쿠버네티스 기반으로 한 빅데이터 플랫폼을 완성하여 공개했습니다. 보시면 어디에선가 보신 느낌을 받으실 수 있을 겁니다. 저희 팀에서 개발한, '오픈소스를 기반으로 한 멀티 클라우드 지향 AI/빅데이터 플랫폼 AiNSWER 아키텍처와 유사한 부분이 많습니다. 이러한 아키텍처가 트렌드에 부합한다고 보시면 좋겠습니다. 데이터 레이크를 하는 이유와 데이터 엔지니어링이 중요한 이유를 쉽게 설명한 글이 있어 공유합니다. 데이터 아키텍처의 변화 데이터 엔지니어링을 왜 배워야 하는지에 대한 글을 아직 읽지 않으신 분들은 아래 링크를 통해 읽고 오시면 좋을 것 같습.. 2022. 4. 28.
데이터 천재들은 어떻게 기획하고 분석할까? 데이터 천재들은 어떻게 기획하고 분석할까? - 조성준 외 지음/21세기북스 AI기술팀의 팀장 일을 하다 보니, 인공지능 트렌드와 활용방안 및 사례를 설명하고 발표할 일이 종종 있었습니다. 이 책이 일찍 나왔다면 자료 만들기가 참 편했겠습니다. 2022년에 인공지능이라는 주제를 다룰 때에 다소 얄궂은 면이 있습니다. 알파고나 IBM Watson과 같은 사례가 있어 어느 정도 익숙하면서도 원리를 알기는 힘들다 보니, 영화에 나오는 수준과 개념을 가지고 업무를 논하게 되면 십중팔구 실망하기 때문입니다. 이 책은 각 장을 공저자들이 나누어 작성했습니다. 순서 대로 읽는 게 바람직하겠으나, 개요에 해당하는 1, 2부 이후는 관심이 가는 주제 위주로 읽어도 무방합니다. 1부 데이터 문맹 탈출, 반드시 알아야 할 데.. 2022. 4. 17.
디지털 마케팅까지 다루는 '고객을 끌어오는 구글 애널리틱스4' 입문부터 최신 고급 기법까지 실무에 필요한 웹 로그 분석 완벽 설명&실습 가이드 한빛미디어 / 저자: 문준영 / 출간: 2022-03-10 https://www.hanbit.co.kr/store/books/look.php?p_code=B7239224234 구글 애널리틱스(GA)와 애드센스를 초창기부터 써왔는데, 어느 순간 보니 기능들이 어마어마하게 많아졌습니다. 내 블로그에 누가 들어오나 궁금해서 시작했던 구글 애널리틱스가 어느새 디지털 마케팅의 주류 솔루션으로 쓰이고 있는 게 대단하다 생각하던 차에, 이 책이 나와 얼른 보았습니다. 512쪽이나 되어 GA가 이 정도로 복잡한 도구가 되었구나 언제 다 읽나 했으나, 스크린샷이 풍부하여 잘 따라 할 수 있게 한 구성일 뿐이지 글만 빼곡하지는 않아 다행이었습.. 2022. 4. 1.
빅데이터 모범사례 CERN 입자가속기로 유명한 CERN은 2017년에 scale out이 곤란한 Oracle DB를 포기하고 Apache Spark로 전환한 모양입니다. https://db-blog.web.cern.ch/blog/luca-canali/2017-08-apache-spark-and-cern-open-data-example The Architecture of the Next CERN Accelerator Logging Service - The Databricks Blog As a complex chain of interconnected particle accelerators at CERN, collectively these accelerators generate massive amounts of data per day,.. 2021. 12. 11.
Cloudera Hadoop 조언 memo 'AI > Machine learning > Data science > Analytics'는 같은 플랫폼에서 구동해야 한다. + 보안 + 거버넌스 분석/예측 업무를 꼭 같은 플랫폼 위에서 운용해야 하지는 않지만, ① 개발자 범주를 벗어나면 여러 가지 플랫폼을 한번에 쓰는 사람이 드물고 대개는 버거워하며, ② 보안 등 관리적인 면에서도 단일 플랫폼일 때에 일단 저렴하다. → 그러나, 인사가 만사이므로 하둡 플랫폼을 대대적으로 쓰기 힘든 조직은 당장 쓸 수 있는 도구를 택해야 영속할 가능성이 높아진다. 인프라 역시 기술 부채가 많이 쌓이는 게 좋지 않긴 해도 일단 비즈니스 구현이 먼저다. 문제 해결은 case by case이지만 pattern은 존재한다. Journey Discover: usecase 도출 .. 2021. 5. 16.
빅데이터는 여우의 신포도가 아닙니다. 빅데이터든 AI든 데이터의 잠재력을 잘 알았으면, 이제부터 필요한 데이터를 만들 생각도 했으면 좋겠습니다. 기존 데이터에 한계가 많았다고 해서, 해당 업계에서는 데이터 효용성이 작다고 속단해서는 곤란합니다. 잘 모르겠으면 일단 log부터 쌓아 봅시다. AWS S3는 무척 싸니 DB 설계는 뒤로 미룹니다. 얼마간 쌓아 보고 정 쓸 데가 없으면 지우면 됩니다. 최소한 이 산이 아니니 다른 산을 올라야 한다거나, 조직에 데이터 활용역량이 없으니 대책이 필요하다는 소중한 결론을 얻을 수 있습니다. 2020. 1. 14.
빅데이터 세계에서 하둡은 선택지 중 하나일 뿐 하둡 프로젝트에 참여하고 운영을 하다 다시 본사에 돌아왔습니다. 제가 속한 조직은 꽤 큰 편인데 여전히 인공지능은 물론 하둡에 정서적으로 거리를 두었으며, 불가피하게 쓸 때에는 전적으로 협력업체에 의존했습니다. 빅데이터 니즈가 없지는 않았을 텐데 어떻게 하고 있는지 둘러 봤더니 Elastic Search와 Splunk를 쓰는 부서가 나왔습니다. 오라클 DB를 쓰듯 솔루션 개념으로 빅데이터 도구를 도입한 셈이었습니다. 별 수 없다는 생각이 들었습니다. Hadoop과 특히 Hive에 애착이 많았습니다만 우리 회사에서는 안 되겠구나 저 혼자 결론을 지었습니다. 인사가 만사여서이기도 하되, Hadoop이 없으면 안 될 두드러진 비즈니스 니즈가 없었기 때문이기도 합니다. 다행스럽게도 제가 빅데이터 일을 시작한 이.. 2019. 10. 14.
인공지능이고 AR이고 VR이고 나발이고 Ikea가 2017년 9월 12일 발표한 영상을 보았습니다. 이전에 발표했던 증강현실(AR) 앱이 훨씬 세련되게 발전했습니다. 저 IKEA Place 앱만 있으면 새 가구를 살 때에 집에 어울리는지 어떻게 놓으면 될지 쉽게 알 수 있겠습니다. 경영진들이 보면 '전산에 그렇게 돈을 많이 쓰는데 저런 거 하나 못 만드나?'라고 생각할지 '저런 거 만들려면 데이터부터 준비해야 할 텐데, 언제부터 시작할 수 있을까?'라고 생각할지 궁금합니다. 전자라면 답이 없고, 후자라면 길을 뚫어야지요. 여부가 있겠습니까? ☺ IKEA Place 앱을 만들기 위해서는 우선, 현실 화면에 가상 모형을 겹쳐서 이리 저리 돌려 보게 하는 증강현실(AR, augmented reality) 구현 기술이 필요합니다. 딱히 기억나는 국산.. 2017. 9. 26.
개인정보 보호를 감안한 데이터 생성 계획 이제 빅데이터까지 언급하지 않더라도 데이터의 중요성에 대한 공감대는 확고하다. 한국 기업은 로그를 최소기간만 남기곤 했는데, 사물인터넷과 인공지능 시대를 맞으며 일단 로그를 만들어 저장해 두자는 곳도 많아진 듯한 느낌을 받았다. BI와 빅데이터 업무를 해오면서, 보유한 데이터가 별로 없거나 활용가치가 떨어지는데도 유용한 데이터가 많은 줄 아는 기업을 보고 허탈한 적이 몇 번 있었지만, 최근에는 너무 고민 없이 일단 데이터를 쌓아 두는 곳도 보여 걱정스럽다. '업'에 대한 고민 없이 모바일 기기나 각종 센서로부터 raw data를 받아 중앙의 서버에 쌓는다고 할 때, 아무리 클라우드가 저렴하며 저장장치 값이 떨어졌다고 해도 비용 낭비일 뿐이다. 어지간한 대기업이 아닌 이상에는 raw data가 있다는 안도.. 2017. 8. 27.
한국에서 빅데이터 허구 운운은 물정 모르는 얘기 나 역시 빅데이터가 학술용어가 아니라 마케팅 구호인 특성이 강하며 인공지능 바람 역시 상술에 휘둘린다고 본다. 그러나 한국에서 빅데이터와 인공지능을 폄하할 자격을 가진 기업 수는 손에 꼽을 정도 밖에 안 된다. 까놓고 얘기해서 어딜 감히 폄하하냐고 비아냥 거리고 싶다. 반도체 등 몇몇 장치산업의 기업이나 센서 데이터를 많이 가지고 있을까, 나머지 한국 기업은 영업비밀이랍시며 데이터를 '제대로' 저장해서 써먹지 못하는 게 태반이다. 을 혹은 정병 입장으로 컨설팅하는 업체가 고객사에 "(바로) 쓸 만한 데이터가 영 없는데요?" 할 수는 없는 노릇이니, 재무수치나 보는 경영진은 그저 자기 회사에 데이터가 많은데 활용만 못하는 줄로만 안다. 빅이든 아니든 데이터 분석가들과 IT 인력들만 벙어리 냉가슴을 앓는다... 2017. 8. 22.
가상현실을 통해 데이터 품질을 관리하는 아이디어 컴퓨터로 저장한 데이터는 가시적이지 않다. 맨눈으로 면면을 보기 힘들다. 데이터가 얼마나 쌓였는지 정도는 단순한 질의나 대시보드를 통해 알지만, 쓰레기값이 들어갔는지 내가 찾는 그 데이터인지는 바로 보이지 않는다. 데이터가 많이 쌓일수록 의도한 데이터가 어디에 있는지 알기 힘들어진다. 데이터 카탈로그, 메타데이터 관리를 위시한 데이터 품질관리는, 필연적으로 발생하는 데이터 품질 저하라는 한계를 극복하려는 노력을 일컫는다. 데이터 품질 관리를 표방하는 솔루션 업체마다 관점이나 수준은 다르더라도 데이터 검색/탐색, 주석/문서화, 요약/분포, 생명주기와 같은 기능을 제공한다. 이렇게 데이터를 자산으로서 관리하는 솔루션들은 제법 긴 역사를 거 꽤 높은 완성도를 보이지만, 그러한 솔루션을 도입하더라도 관리역량 자.. 2016. 12. 7.
전자상거래라는 말이 어색해진다 알리바바 그룹의 마윈 회장은 전자상거래라는 낱말이 사라질 거라고 예언했다. 비유적인 표현이다. 정보기술 기반의 전자상거래라 몰락한다기보다는 전자상거래가 아닌 상거래는 없어진다는 의미로 받아들여야 한다. 이런 발언이 벌써 가능한 배경은 중국이라는 특수한 환경때문이라고 본다. 중국에는 드럼통 하나 달랑 가진 군고구마 노점상도 알리페이 같은 간편결제 시스템을 자연스럽게 쓴다. 중국에 위조지폐가 많으니 어쩌니 하는 근원적 배경은 더 따질 이유가 없다. 곧 '상거래 = 전자상거래'인 나라가 등장하고 그런 흐름에 제동을 걸기 힘들어진다는 공감대가 중요하다. CRM도 비슷한 맥락으로 저변 깊숙히 자리잡지 않을까 한다. 노점상도 스마트폰만 가지고 있으면 마일리지부터 개인화 프로모션까지 서비스할 세상이 멀지 않아 보인다.. 2016. 10. 24.
빅데이터 열풍은 끝났을까요? 기술용어라기 보다는 마케팅 구호에 가까웠던 빅데이터는 여전히 폄훼의 대상이어서는 안 됩니다. 최소한 한국에서는요. 최근 몇 년 간 '무턱대고 데이터를 저장해서는 빅데이터를 통한 효용을 얻지 못한다'는 얘기를 들을 때마다 답답해지는 마음을 달랠 길이 없었습니다. 삼성전자나 이동통신업계를 빼면 페타바이트 규모로 데이터를 저장하는 기업을 대기업 중에서도 찾기가 어렵습니다. 걱정스러울 정도로 데이터를 많이 저장하는 한국 기업이 정말 있는지 궁금합니다. 한국 대기업의 고질적인 모험회피 성향은 데이터 활용에도 그대로 영향을 미치기 때문에 어지간한 분석가들이 마음 놓고 분석할 만한 환경을 갖춘 곳은 드물기만 합니다. 그나마 최근에는 PC 성능이 좋아져서 분석가 개인적인 시도가 쉬워졌습니다만, 데이터 사일로 현상을 부.. 2016. 10. 18.
SQL on Hadoop 솔루션 선택 도움말 Hadoop에 SQL로 Query한다 하면 Hive가 기본이지만, 비즈니스 니즈에 따라 Impala를 위시한 SQL on Hadoop 솔루션이 많이 나왔습니다. 오픈소스부터 상용, 상용 서브스크립션 제품까지 다양합니다. Hive는 배치 잡에 걸맞는 질의 수단이기 때문에 여타의 SQL on Hadoop 솔루션은 질의결과를 바로(빨리) 받아야 하는 비즈니스 니즈를 충족하고자 나왔다고 해도 무리가 없겠습니다. Hive on Tez, Hive on Spark가 발전하는 중이지만 아직은 다른 SQL on Hadoop 솔루션들이 빠릅니다. Hive보다 빨라야 존재의의가 있다고도 하겠습니다. 민감하기도 하고, 변동이 빠르기도 한 분야라 상용 솔루션 이름은 굳이 언급하지 않겠습니다. SQL on Hadoop을 구분하는.. 2016. 9. 27.
반응형