인류는 데이터(유무형의 기록)라는 유산을 상속하여 왔기에 문명사회로 발전했다. 기록이 모든 걸 담지는 못해도 많을 걸 담아왔기에 물려 받은 데이터를 발전의 발판으로 삼았다. 그런데 어느 순간 한 사람이 여러 주제에 걸친 데이터에는 온전한 맥락을 터득하기가 어렵게 되기 시작했다. 정보기술이 발전하여 데이터를 보관하는 비용과 처리하는 비용이 줄어들수록 데이터 생성량은 점점 더 커졌기 때문이다. 1
데이터 홍수 속에서 허우적대다 일단 손에 들어 온 데이터를 맥락 없이 따르거나 데이터를 내던지고 구원자를 찾아 나서게 될 뻔했던 게 2010년 즈음의 상황이었다. 2 뭔가 지침이 필요한 시점이었다. 3Data swamp를 거론할 정도로 기록 폭증으로 벌어지는 혼란을 피하려면 기록을 한 취지가 드러나야 한다. 4 거창한 얘기로 들렸겠지만 데이터의 데이터, 다시 말해 메타데이터를 명확히 남겨야 한다는 게 요점이다. 5
이제까지는 메타데이터를 만드는 노력에 공이 너무 많이 들어갔다. 도저히 수지타산이 맞지 못하는 작업이었다. 그러면서도 남이 만든 메타데이터를 모두 믿지 못했다. 키워드, 주제문, 심지어 제목조차도 어뷰징(≒부정)이 심해서 메타데이터를 확인하는 절차가 필요했다. 시맨틱웹은 아마 이런 이유로 주류가 되지 못했을 것이다.
그러던 중 기술이 발전하여 글 내용에서 주제어와 주제문 등을 추출해 내게 되었다. 6
[예시] IBM Watson Natural Language Understanding
https://natural-language-understanding-demo.ng.bluemix.net/
세상이 달라졌다. 이제 인터넷에 공개한 글, 접근 가능한 글은 이런저런 전처리를 통해 니즈에 부합하는 메타데이터를 생성하는 게 가능하다. 맥락을 이해하는 사람을 키우거나 찾아야 했던 시대는 지났다. AI를 기반으로 맥락을 이해하는 검색 엔진 같은 게 나와서 딱 떨어지는 답이나 답에 도달하도록 유용한 데이터를 줄 거라 본다.
인용 받지 못한 논문, 사사로운 블로그 글조차 장래 AI에게는 도움이 된다. 메타데이터로서 AI가 습득하는 주제에든 카테고리에든 1건을 보태게 될 것이기 때문이다. 더불어 잘 가꾼 AI는 적절하게 가중치를 부여하기까지 할 것이다. 특이점이 오는 데에는 AI가 쉬지 않는다는 특성, 계속 증분학습이 가능하다는 특성 외에도 누락하는 데이터가 극히 적다는 특성 역시 크게 작용할 게 틀림 없다.
물론 2019년 기준으로는 AI가 갈 길이 멀다. AI가 그 길을 지나서 그 이후의 길로 재차 출발할 때에 인류가 행복할지 어떨지는 상상이 가지 않는다. AI가 인류를 사랑하도록 학습하게 하는 일이 성공하기만을 바랄 뿐이다.
***
여담으로 F-16 전투기의 매뉴얼은 책 3,500권에 달하며, 항공모함의 경우에는 관련문서의 무게가 23톤에 이르렀다. 미국 국방부는 이런 추세를 감당하고자 CALS(Computer Aided Logistic Support)를 만들었다고 한다.
F-16 매뉴얼 용량이 뿜어내는 위용을 접해보고 싶다면 아래 링크를 방문하길 바란다.
매뉴얼로 둘째 가라면 서러운 곳 중 하나는 맥도날드다. 5만 가지 항목으로 유명하다.
'BI > 인공지능' 카테고리의 다른 글
럭셔리 인공지능 서비스는 나올까? (0) | 2019.06.08 |
---|---|
인공지능 러다이트 운동을 예방하려면 (0) | 2019.04.29 |
감탄스러운 <아무것도 모르고 시작하는 인공지능 첫걸음> (0) | 2019.01.19 |