본문 바로가기

BI138

통계는 강력해 지난 20대 대선은 특이하게도 지상파 3사 (KBS, MBC, SBS)와 JTBC가 출구조사를 따로 진행했습니다. 공교롭게도 두 조사의 예측결과는 달랐고 승패가 갈리고 말았습니다. 승자인 지상파 3사 출구조사에 쓰인 예측 시스템은 KBS가 개발하여 20년이나 쓰는 중인 'Decision K'로서 최근 유행하는 인공지능 기술은 쓰지 않고 전통적인 통계학 기법만 사용했다고 합니다. 박빙 대선결과 ‘적중’한 지상파 3사 출구조사…비법은 무엇? 실제 결과와 0.1%p 차이로 적중한 예측사전투표 비중확대 반영…‘1만명 전화조사’ 보정 주효 www.hani.co.kr Vision, STT(음성인식), TA(텍스트 분석) 분야는 모두 deep learning이라는 인공지능 기술의 강력함을 근간으로 최근 들어 급속도로.. 2022. 3. 17.
진도 빠른 안내자 '쿠브플로 운영 가이드' 조시 패터슨, 마이클 카체넬렌보겐, 오스틴 해리스 (지은이) / 김소형 (옮긴이) / 2022-01-31 원제: Kubeflow Operations Guide https://www.hanbit.co.kr/store/books/look.php?p_code=B9309356194 AI기술팀의 일원으로서 MLOps는 지상과제입니다. MLOps를 구현하는 방법에는 정답이 없어도 정도 중 하나는 구글이 제안하는 길을 따르는 것입니다. 구글이 내놓은 Kubernetes는 리눅스재단에서 적극적으로 받아 들이는 등 컨테이너화된 워크로드와 서비스를 관리하기 위한 이식할 수 있고 확장 가능한 오픈소스 플랫폼으로는 대세가 되었습니다. 그러한 기조를 바탕으로 DevOps에서 쿠버네티스는 필수요소가 되다시피 했고, 자연스럽게 쿠.. 2022. 2. 24.
내용이 알알이 꽉 찬 '파이토치로 배우는 자연어 처리' 델립 라오, 브라이언 맥머핸 저 / 박해선 역 / 2021-06-01 https://www.hanbit.co.kr/store/books/look.php?p_code=B1231887279 인공지능, 머신러닝 입문서 저자들은 고민할 겁니다. 인공지능의 어디에서부터 시작해야 할까는 정답이 없는 주제입니다. 텐서플로나 파이토치와 같은 프레임워크를 기준으로 한 교재는 인공지능의 여러 주제인 이미지 처리, 자연어처리, 회귀 정도를 입문 수준에서도 쉬운 정도로 다룰 수밖에 없습니다. 실제로 써먹으려면 주제 중 하나를 깊이 있게 다룰 줄 알아야 하는데, 바로 이 책이 자연어처리 주제로는 입문서 다음에 읽기 좋도록 잘 기획한 중급서입니다. 중급서라고 해도 긴장할 필요는 없습니다. 입문서 내용을 많이 까먹었더라도 Pyth.. 2021. 12. 27.
당분간 두루 잘 알아듣는 음성인식 AI는 없다 저희 팀은 콜센터에 STT(Speech-to-Text 음성인식) 엔진을 납품하면서 고객사에 범용적인 음성인식을 하지 않는다고 부연하여 설명합니다. 하지 못한다가 아니라 하지 않는다고 하는 데에는 이유가 있습니다. 음성인식 원천기술을 개발하지는 못하고, 주로 Kaldi toolkit으로 엔진을 개발합니다. 그러다 보니 이런 저런 의사결정이 명쾌해집니다. 할 수 있는 것과 없는 것이 상당히 갈립니다. 그 중 하나가 언어 모델입니다. 언어 모델은 무조건 말뭉치를 크게 만든다고 해서 인식률에 도움이 되지 않습니다. 오히려 생각 없이 키운 말뭉치는 해가 됩니다. 조직 내에 어느 이상 역량이 쌓이지 못했다면 비즈니스 도메인에 따라 적당한 크기로 말뭉치를 만드는 게 유리합니다. 그렇다면 네이버, 카카오, 구글은 범용.. 2021. 12. 12.
빅데이터 모범사례 CERN 입자가속기로 유명한 CERN은 2017년에 scale out이 곤란한 Oracle DB를 포기하고 Apache Spark로 전환한 모양입니다. https://db-blog.web.cern.ch/blog/luca-canali/2017-08-apache-spark-and-cern-open-data-example The Architecture of the Next CERN Accelerator Logging Service - The Databricks Blog As a complex chain of interconnected particle accelerators at CERN, collectively these accelerators generate massive amounts of data per day,.. 2021. 12. 11.
NLP 뉴비에게는 중간보스인 '구글 BERT의 정석' https://www.hanbit.co.kr/store/books/look.php?p_code=B2201215526 이 책을 3장까지 읽고 든 생각은 '아이고, 수학공식이 별로 없는 수학책이구나'였습니다. 어쩐지 BERT부터 허깅페이스에 BERT의 파생 모델, BERTSUM 등 세세한 내용을 다루다가, 막판에는 한국어 모델인 KoBERT, KoGPT2까지 한 권에 죄다 다룬다고 해서 덥석 클릭했습니다만, 이걸 장점으로만 여겨서는 안 되었습니다. 그렇다 해도 몹쓸 책은 아닙니다. 제가 속한 팀에서는 이런 저런 자연어 처리를 하는데 팀원들이 실제로 운영 서비스에 쓰는 기술들이 이 책에 많이 담겼습니다. 그래서 이 책을 고르기도 했던 것입니다. 다만 이 책을 잘 소화하려면 책만 읽어서는 힘들 거라고 봅니다. .. 2021. 11. 19.
인류의 유산, 인포메이션 인포메이션 - 제임스 글릭 지음, 박래선. 김태훈 옮김, 김상욱 감수/동아시아 주변 사람들에게 데이터로 먹고 살거나 한국인으로서 서구 문명이 몇 가지 면에서 아시아를 압도했던 배경을 궁금하다면 꼭 읽어 보라고 추천했습니다. 그냥 역사를 좋아해도 재미있을 책입니다. 책갈피 '아프리카의 말하는 북 Talking drums of Africa' 북꾼들은 신호를 보내는 것이 아니라 말을 했다. (소식, 공지, 위험 알림, 시, 농담) 북 언어는 중간부호층인 언어를 변환한 코드가 아니라 말을 바로 변형한 것이었다. (예: 숲에 있는 백인이여, 높은 곳에 있는 널집으로 오라. 여인이 얌과 함께 기다린다. 어서 오라.") H = n log s (H: 정보량, n: 메시지를 구성하는 기호의 수, s: 해당 언어가 가진 .. 2021. 11. 2.
설명은 다 하는 '제대로 배우는 수학적 최적화' 인공지능 시대라 해도 최적화는 다양한 층위의 기술을 죄다 써야 현안을 해결할 만하다고 단언하는 바이다. https://www.hanbit.co.kr/store/books/look.php?p_code=B3558796278 한빛미디어에서 출간한 책을 여러 권 읽어 오면서, 이제서야 내가 배우고 싶은 주제만 오롯이 달달달 설명한 책을 만났지만 마음이 복잡해졌다. 부끄럽게도 수학에 능숙한 편이 못 되어 제대로 배우기 힘들었기 때문이다. 이 책에 나오는 여러 개념이나 기법을 이 책을 통해 처음 접했다면 이 책을 끝까지 읽어내기도 힘들다. 고교수학에 어느 정도 자신이 있는 이는 두려움 없이 도전해도 좋겠다. 목차를 보면 전통적인 최적화 외에 머신러닝과 유관한 내용도 꽤 되었다. 알고리듬 교재 같은 면도 있다. 최적.. 2021. 10. 25.
진입장벽을 낮춘 'fastai와 파이토치가 만나 꽃피운 딥러닝' 머신러닝, 딥러닝을 수학적으로 잘 풀어준 교육, 교재는 많다. 아무래도 수학이 장벽으로 느껴지곤 하니 아예 딥러닝 관련 수학을 알려주는 교육과정과 책도 꽤 있다. 그런데 좀 색다른 책이 나왔다. 저자: 제러미 하워드, 실뱅 거거 / 번역: 박찬성, 김지은 https://www.hanbit.co.kr/store/books/look.php?p_code=B7970422863 딥러닝 교재의 기본 스타일은 Coursera의 Deep learning specialization 과정이다. 어지간한 인공지능 이론/실습 과정은 선구적인 이 교육과정의 영향을 받았다고 해도 과언이 아닐 것이다. 심층 학습 deeplearning.ai에서 제공합니다. Become a Machine Learning expert. Master .. 2021. 9. 23.
정말 입문자에게 딱 맞는 '데이터 분석가의 숫자유감' 소셜 미디어 어디쯤에서 봤는지 모르겠지만 참 쉬운 내용으로 시작하길래 충동 구매했다. 다 읽고서는 동기들에게 추천했다. 여러모로 도움이 되리라 생각했다. 내 나이대 사무직, 기술직 회사원이 이 정도도 모르면 전방위로 곤란한 존재가 된다. 데이터 분석가의 숫자유감 - 권정민 지음, 주형 만화/골든래빗(주) 이전에도 입문자 용으로 책을 골라 봤는데 그보다도 훨씬 쉽다. (2020.02.25 - [BI] - 절절함을 감춘 ) 만화 비중이 크기에 앞으로도 데이터 활용에 곤란을 겪거나 어떻게 시작할지 모르는 이에게 추천하려고 한다. 이 책은 '데이터 문해력'을 개념을 설명하는 데에 집중했으며, 데이터를 어떤 식으로 판단해야 하는가 하는 실마리를 준다. 정말 관심이 생겨 통계부터 파기 시작하면 갈 길이 멀겠지만, .. 2021. 9. 12.
Cloudera Hadoop 조언 memo 'AI > Machine learning > Data science > Analytics'는 같은 플랫폼에서 구동해야 한다. + 보안 + 거버넌스 분석/예측 업무를 꼭 같은 플랫폼 위에서 운용해야 하지는 않지만, ① 개발자 범주를 벗어나면 여러 가지 플랫폼을 한번에 쓰는 사람이 드물고 대개는 버거워하며, ② 보안 등 관리적인 면에서도 단일 플랫폼일 때에 일단 저렴하다. → 그러나, 인사가 만사이므로 하둡 플랫폼을 대대적으로 쓰기 힘든 조직은 당장 쓸 수 있는 도구를 택해야 영속할 가능성이 높아진다. 인프라 역시 기술 부채가 많이 쌓이는 게 좋지 않긴 해도 일단 비즈니스 구현이 먼저다. 문제 해결은 case by case이지만 pattern은 존재한다. Journey Discover: usecase 도출 .. 2021. 5. 16.
일단 시작하기 좋은 <몽고DB 완벽 가이드(3판)> 몽고DB가 충분히 원숙해진 후인 3.4 버전 때에 경험 많은 엔지니어에게 배우며 적당한 트래픽 환경에서 운영했던 행운을 누렸던 터라, RDB를 굳이 쓰지 않아도 되는 사안에는 자연스럽게 몽고DB를 기준으로 생각하곤 합니다. 그러다 보니, 는 세 번째 읽는 몽고DB 교재입니다. www.hanbit.co.kr/store/books/look.php?p_code=B2586509403 저자: 크리스티나 초도로우, 섀넌 브래드쇼, 오언 브라질 번역: 김인범 실전 예제로 배우는 NoSQL DB라는 홍보문구 답게 질의 예제를 충분히 다룹니다. 더불어 운영 관점에서 복제(replica)와 샤딩과 더불어 서버 관리와 모니터링에 분량을 상당히 할애합니다. 몽고DB를 몽고DB 답게 하는 Replica와 sharding 내용이.. 2021. 4. 19.
하산을 빨리 시키는 듯싶은 <GAN 첫걸음> 타리크 라시드 씨가 에 이어 을 내놓았습니다. GAN 첫걸음 파이토치 신경망 입문부터 연예인 얼굴 생성까지 저자: 타리크 라시드 / 번역: 고락윤 https://www.hanbit.co.kr/store/books/look.php?p_code=B9417661237 이 제게 참 유익했기에 이번 책도 평소 관심사와 엮여서 무척 기대했습니다. 팀 업무에 쓸 머신러닝 학습 데이터가 부족해서 만들어 볼까 생각해 왔던 중이었기 때문입니다. 내용은 정말 알찹니다. 저자가 입문자인 독자를 배려하여 Google Colab을 써서 실습하도록 했기에 장소에 구애 받지 않고 공부하기에도 딱 좋습니다. 그러나 읽고 나서 첫번째로 들었던 생각은 독자 대상이 좀 애매하지 않은가 하는 의문이었습니다. 이 책은 다음으로 나오기는 했지만.. 2021. 3. 23.
이보다 더 쉽지 못할 <신경망 첫걸음> 코세라로 머신러닝 강좌를 듣다가 이해가 좀 힘들어서 예전에 샀던 책을 다시 펼쳐 들었습니다. www.hanbit.co.kr/store/books/look.php?p_code=B1910379076 저 유명한 앤드류 응 교수의 코세라 딥러닝 강좌와는 찰떡궁합이랄까요? 어색한 번역이 섞여서 좀 더 어렵게 느껴지던 부분을 말끔히 해소해 주었습니다. 다만 표지에 적힌 대로 '수포자도 이해하는' 수준까지는 아니라고 봅니다. 휙 어려워지는 지점이 나옵니다. 그래도 완독하시길 바랍니다. 완벽히 이해하지는 못하더라도 신경망이라는 게 잘 돌아가는 개념이라는 사실을 잘 알게 됩니다. 인공지능, 머신러닝과 그리 친하지 않았던 입문자는 바로 구글 텐서플로나 파이토치 책을 잡기보다는 이 책을 후딱 떼는 게 더욱 도움이 되리라 단.. 2021. 2. 3.
내 직업은 자동화 바람으로부터 안전한가? 최근 도로공사 요금계산소 수납원들이 집단으로 해고 당했다가 본사 정직원으로 복귀한 적이 있습니다. 관련 뉴스는 저와 무관하지 않아 매번 착잡한 마음으로 보곤 했습니다. "청소로 일바뀌고 월급 줄고"..해고 피하니 대신 차별? [뉴스데스크] ◀ 앵커 ▶ 집단해고 됐던 도로공사 요금계산소 수납원들이 10년이 넘는 긴 소송 끝에 도로공사 본사 정직원이 됐는데요. 기쁨은 잠시였습니다. 한국도로공사는 이들에게 수납업무 news.v.daum.net 실은 정직원으로 복귀할 거라는 소식에도 착잡한 마음은 가시지 않았는데, 결국 정직원이 되어서도 청소 업무를 하게 되었습니다. 이 사안은 도로공사가 마냥 횡포를 부리는 것만으로 보기는 힘듭니다. 고속도로 요금계산소 수납원이라는 직업은 몇 년 내로 사라질 게 확실하기 때문입.. 2021. 1. 24.
업계 선배가 알려주는 듯한 <데이터 전처리 대전> 좀 신기한 책이 나왔습니다. 데이터 전처리 대전 데이터 분석을 위한 파이썬, SQL, R 실천 기술 www.hanbit.co.kr/store/books/look.php?p_code=B1543811360 보통 SQL만 R만 Python만 다루는 책이 태반일 텐데, 일단 이 셋을 한번에 다루는 게 신기하면서도, 그동안 많이 다루지 않고 '전처리'라는 영역을 주제로 했다는 게 정말 특기할 만했습니다. 캐글 같은 경진대회에서 괜찮은 성적을 거둘 만한 역량이어도 현장 업무에서는 시작 단계에서 어려움을 겪을 때가 상당할 텐데, 이 책은 현실에서 맞붙게 될 상황에 대해 다양하게 풀어줍니다. 예를 들어 범주형 데이터를 dummy 변수로 만들기는 원래 그렇게 하는 것 아니냐고 반문할 수도 있는데, 통계로 시작하지 않고 .. 2020. 11. 23.
RPA까지 안내하는 <파이썬으로 웹 크롤러 만들기> 최근에 웹 페이지를 자동으로 읽고 실행할 일이 생겼는데, 마침 을 읽게 되어 다행이었습니다. 이 책은 1판을 산 적이 있던 터라 좀 신기했습니다. 1판은 파이썬 기본을 익힌 수준이면 쉽게 시작할 수 있었는데 그새 무슨 내용을 보강했나 궁금해졌습니다. 파이썬으로 웹 크롤러 만들기(2판) : 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법 https://www.hanbit.co.kr/store/books/look.php?p_code=B5046562423 한국은 '웹 크롤링(crawling)'이라는 어휘가 대세라, 저자가 쓰는 '웹 스크레이핑(scraping)'이라는 용어가 볼 때마다 어색합니다. 번역가로서 고민스러웠겠습니다. 2판 역시, 파이썬 문법 기초만 알면 웹 크롤링을 따라 개발하도록 친절하게.. 2020. 10. 25.
레벨업을 도와주는 <퀀트 전략을 위한 인공지능 트레이딩> 신기한 책을 만났습니다. 퀀트 전략을 위한 인공지능 트레이딩 파이썬과 케라스를 활용한 머신러닝/딥러닝 퀀트 전략 기술 한빛미디어 / 김태헌, 신준호 저 www.hanbit.co.kr/media/books/book_view.html?p_code=B1740090592 그동안 인공지능/머신러닝 입문서를 떼고 나서 심화학습을 하기 위한 책을 찾아 보면 그리 많지 않았습니다. 때문에 캐글 같은 경진대회 참여와 전문업체 취업 외에는 갈고 닦을 방법이 적었습니다. 퀀트 분야도 마찬가지입니다. 엄청나게 수학적(!)이거나 자전소설 같은 느낌을 주는 책을 읽어 본 적이 있습니다. 책 한두 권 읽었다고 그 업계 노하우 등 일하는 방식을 흡수할 엄두는 내지 않았지만 겉핥기조차 쉽지 않았다는 느낌을 받았습니다. 반면 이 책은 .. 2020. 9. 28.
반응형