AI 전성시대에 버림 받는 데이터가 있을까?

인류는 데이터(유무형의 기록)라는 유산을 상속하여 왔기에 문명사회로 발전했다. 기록이 모든 걸 담지는 못해도 많을 걸 담아왔기에 물려 받은 데이터를 발전의 발판으로 삼았다. 그런데 어느 순간 한 사람이 여러 주제에 걸친 데이터에는 온전한 맥락을 터득하기가 어렵게 되기 시작했다. 정보기술이 발전하여^[각주:1] 데이터를 보관하는 비용과 처리하는 비용이 줄어들수록 데이터 생성량은 점점 더 커졌기 때문이다.

데이터 홍수 속에서 허우적대다 일단 손에 들어 온 데이터를 맥락 없이 따르거나 데이터를 내던지고 구원자^[각주:2]를 찾아 나서게 될 뻔했던 게 2010년 즈음의 상황이었다.^[각주:3] 뭔가 지침이 필요한 시점이었다. Data swamp를 거론할 정도로 기록 폭증으로 벌어지는 혼란을 피하려면 기록을 한^[각주:4] 취지가 드러나야 한다.^[각주:5] 거창한 얘기로 들렸겠지만 데이터의 데이터, 다시 말해 메타데이터를 명확히 남겨야 한다는 게 요점이다.

이제까지는 메타데이터를 만드는 노력에 공이 너무 많이 들어갔다. 도저히 수지타산이 맞지 못하는 작업이었다. 그러면서도 남이 만든 메타데이터를 모두 믿지 못했다. 키워드, 주제문, 심지어 제목조차도 어뷰징(≒부정)이 심해서 메타데이터를 확인하는 절차가 필요했다. 시맨틱웹은 아마 이런 이유로 주류가 되지 못했을 것이다.

시맨틱 웹 기술 계층 구조: 아무래도 복잡하다. 이렇게까지 해야 하나 싶을 정도이다.

그러던 중 기술^[각주:6]이 발전하여 글 내용에서 주제어와 주제문 등을 추출해 내게 되었다.

[예시] IBM Watson Natural Language Understanding

https://natural-language-understanding-demo.ng.bluemix.net/

세상이 달라졌다. 이제 인터넷에 공개한 글, 접근 가능한 글은 이런저런 전처리를 통해 니즈에 부합하는 메타데이터를 생성하는 게 가능하다. 맥락을 이해하는 사람을 키우거나 찾아야 했던 시대는 지났다. AI를 기반으로 맥락을 이해하는 검색 엔진 같은 게 나와서 딱 떨어지는 답이나 답에 도달하도록 유용한 데이터를 줄 거라 본다.

인용 받지 못한 논문, 사사로운 블로그 글조차 장래 AI에게는 도움이 된다. 메타데이터로서 AI가 습득하는 주제에든 카테고리에든 1건을 보태게 될 것이기 때문이다. 더불어 잘 가꾼 AI는 적절하게 가중치를 부여하기까지 할 것이다. 특이점이 오는 데에는 AI가 쉬지 않는다는 특성, 계속 증분학습이 가능하다는 특성 외에도 누락하는 데이터가 극히 적다는 특성 역시 크게 작용할 게 틀림 없다.

물론 2019년 기준으로는 AI가 갈 길이 멀다. AI가 그 길을 지나서 그 이후의 길로 재차 출발할 때에 인류가 행복할지 어떨지는 상상이 가지 않는다. AI가 인류를 사랑하도록 학습하게 하는 일이 성공하기만을 바랄 뿐이다.

***

데이터가 없다시피 한 곳과는 무관한 얘기다.

여담으로 F-16 전투기의 매뉴얼은 책 3,500권에 달하며, 항공모함의 경우에는 관련문서의 무게가 23톤에 이르렀다. 미국 국방부는 이런 추세를 감당하고자 CALS(Computer Aided Logistic Support)를 만들었다고 한다.

F-16: 매뉴얼이 천육백만 쪽이니 한 사람이 소화할 양을 넘어섰다고 해도 과언이 아니다.

F-16 매뉴얼 용량이 뿜어내는 위용을 접해보고 싶다면 아래 링크를 방문하길 바란다.

High-flying solution -- Washington Technology

Aircraft support personnel in the Air Force soon can browse through 16 million pages of technical manuals tagged in extensible markup language.

washingtontechnology.com

Downloads - F-16 Fighting Falcon technical handbooks

This manual gives the overall aircrew evaluation criteria and the procedures to be used evaluating aircrews while on training duties. Read more and download This volume establishes the minimum Air Force standards for training and qualifying personnel perfo

www.f-16.net

매뉴얼로 둘째 가라면 서러운 곳 중 하나는 맥도날드다. 5만 가지 항목으로 유명하다.

[BizⓝCEO] 매뉴얼만 있다면 풀지 못할 문제 없다

< 이 기사는 BizⓝCEO 기획특별판 입니다 >지난 20일 오전 10시 서울 A백화점의 고객만족센터."접근 방법에 문제가 있었네요. 고객이 따지거나 불평할 ...

news.naver.com

꼭 IT가 아니더라도. [본문으로]
코디네이터라 부르든 뭐든 [본문으로]
심지어 이 글에는 그런 상황에서 인간이 할 수 있는 해법을 이야기하다가 주제를 바꾼 이력이 있다. 이 주제로 책을 쓸 생각도 했는데, 고작 몇 년 사이 성숙한 AI 기술로 효용이 다해 버렸다. [본문으로]
데이터를 남긴 [본문으로]
데이터를 남기는 조직 보스의 개인적인 취향이라 할지라도 [본문으로]
자연어 처리와 딥러닝을 위시한 각종 AI 기술 [본문으로]

저작자표시 변경금지

'BI > 인공지능' 카테고리의 다른 글

럭셔리 인공지능 서비스는 나올까? (0)	2019.06.08
인공지능 러다이트 운동을 예방하려면 (0)	2019.04.29
감탄스러운 <아무것도 모르고 시작하는 인공지능 첫걸음> (0)	2019.01.19

전산쟁이 wizmusa의 IT 이야기

AI 전성시대에 버림 받는 데이터가 있을까?

'BI > 인공지능' 카테고리의 다른 글

티스토리툴바

AI 전성시대에 버림 받는 데이터가 있을까?

'BI > 인공지능' 카테고리의 다른 글

관련글

티스토리툴바