본문 바로가기
BI/인공지능

통계는 강력해

by wizmusa 2022. 3. 17.

지난 20대 대선은 특이하게도 지상파 3사 (KBS, MBC, SBS)와 JTBC가 출구조사를 따로 진행했습니다. 공교롭게도 두 조사의 예측결과는 달랐고 승패가 갈리고 말았습니다. 승자인 지상파 3사 출구조사에 쓰인 예측 시스템은 KBS가 개발하여 20년이나 쓰는 중인 'Decision K'로서 최근 유행하는 인공지능 기술은 쓰지 않고 전통적인 통계학 기법만 사용했다고 합니다.

 

박빙 대선결과 ‘적중’한 지상파 3사 출구조사…비법은 무엇?

실제 결과와 0.1%p 차이로 적중한 예측사전투표 비중확대 반영…‘1만명 전화조사’ 보정 주효

www.hani.co.kr

Vision, STT(음성인식), TA(텍스트 분석) 분야는 모두 deep learning이라는 인공지능 기술의 강력함을 근간으로 최근 들어 급속도로 발전했습니다. 반면 정형 데이터(≈ 수치 데이터)를 활용하는 예측과 최적화 분야는 여전히 전통적인 통계가 막강합니다. 업무현장에서는 성능 차이가 확연히 나지 않아 Deep learning까지 쓰기보다는 보통(😉) machine learning 정도만 쓰는 때가 많습니다. SVM, K-Means Clustering, Random Forest, Naive Bayes, KNN은 여전히 절대적으로 사랑받는 알고리듬입니다. 학습과 추론에 드는 비용과 소요시간을 감안하면 더욱 애용할 만합니다.

 

10 Best Machine Learning Algorithms

Though we’re living through a time of extraordinary innovation in GPU-accelerated machine learning, the latest research papers frequently (and prominently) feature algorithms that are decades, in certain cases 70 years old. Some might contend that many o

www.unite.ai

그렇다 해도 업계 종사자 입장에서 보고 있으면, 통계학자들이 학계에서는 열심히 연구하는 중인 딥러닝 수준이 더 발전하면서 현장에 있는 데이터 과학자와 분석가의 역량이 임계점을 넘으면 세상이 또 달라질 거라는 생각도 듭니다. 또한, 딥러닝에 맹목적인 기대를 건다기보다는, AutoML과 같이 여러 글로벌 기업이 별로 투덜대지 않고 꾸준히 투자하는 주제들도 주목할 만합니다. 예측/최적화 모형을 만드는 과정 중 feature engineering과 같은 중간단계에서도 AutoML이 존재감을 드러내려는 참입니다. 아마 개발자와 분석가가 AutoML을 쓰는 방식은 다르겠지 싶습니다. 뭐가 어찌 됐든 통계업계 종사자들은 편리하게 쓸 겁니다. AutoML은 당연히 통계학을 기반으로 해서도 발전하는 중이겠습니다.

 

인공지능과 통계학의 대결 같은 개념은 생각하지 않습니다. 말이 안 됩니다. 그런 식보다는 통계학을 잘 익힌 사람들이 인공지능을 잘 품어서 업무현장의 걸림돌들을 제거해 나가는 유용한 도구로 써먹을 거라 봅니다.

반응형