본문 바로가기
BI/빅데이터

개인정보 보호를 감안한 데이터 생성 계획

by wizmusa 2017. 8. 27.

이제 빅데이터까지 언급하지 않더라도 데이터의 중요성에 대한 공감대는 확고하다. 한국 기업은 로그를 최소기간만 남기곤 했는데, 사물인터넷과 인공지능 시대를 맞으며[각주:1] 일단 로그를 만들어 저장해 두자는[각주:2] 곳도 많아진 듯한 느낌을 받았다. BI와 빅데이터 업무를 해오면서, 보유한 데이터가 별로 없거나 활용가치가 떨어지는데도 유용한 데이터가 많은 줄 아는 기업을 보고 허탈한 적이 몇 번 있었지만, 최근에는 너무 고민 없이 일단 데이터를 쌓아 두는 곳도 보여 걱정스럽다.

'업'에 대한 고민 없이 모바일 기기나 각종 센서로부터 raw data를 받아 중앙의 서버[각주:3]에 쌓는다고 할 때, 아무리 클라우드가 저렴하며 저장장치 값이 떨어졌다고 해도 비용 낭비일 뿐이다. 어지간한 대기업이 아닌 이상에는 raw data가 있다는 안도감에 데이터로부터 가치를 뽑는 일은 시급한 일에 밀릴 수 밖에 없기 때문이다. 더구나 raw data일수록 민감정보(ID 및 개인정보)를 담기 마련이라 도리어 데이터를 추출한 기업 조직 내에서 접근할 직원이 줄어든다. 어느 보안담당자가 민감정보를 아무나 접근하여 빼갈 수 있도록 두겠는가? 고민 없어 폐쇄적인 raw data 저장행위는 비효율, 비효과로 귀결하고 만다.

Why the internet of things needs people centric solutions - Gabi Zodik, IBM

위 장표에 나왔듯이 어느덧 스마트폰의 계산량과 데이터 저장량이 클라우드를 위시한 서버를 앞지르게 됐다. 모바일 기기와 센서[각주:4]에서 생성한 데이터를 중앙으로 받아오는 과정에서 분석관점에 따라 요약하는 등의 방식으로 가공하는 게 여러모로 좋다. 단순한 비식별화보다는 분석관점에 따른 요약[각주:5]이 적절하다. 데이터 용량과 네트워크 트래픽을 줄이면서[각주:6] 1차로 효율을 높인다.

2차로는, 개인정보[각주:7] 보호 관점에서 이러한 가공작업이 절실하다. 빅데이터 활용에 너그러운 미국과 한국의 상황은 매우[각주:8] 다르다. 한국은 징벌적 배상이 보편적이지 못하면서도, 규제와 감사를 통해 뭐든 안 된다고 말하는 정부기관이 정작 명확한 기준은 제시하지 않는 기묘한 구조이다. 민감정보가 쉽게 나타나는 형태로 저장했다가는 기업/조직 내 활용조차 힘들어 데이터를 저장하는 의미가 퇴색하곤 한다. 분석용도로 가공한 데이터 생성은 이러한 법적 리스크와 비효율을 피하게 해준다. 저장비용 절감보다는 이쪽의 효익이 더 크다.

가공작업은 스마트폰 자체나 센서 네트워크 허브[각주:9]에서 진행한다. 무슨 분석관점에서 어떤 데이터를 쳐낼지 결정하는 과정에서는 부단하며 빠른 실패가 불가피하다. 보통은 성과지표를 먼저 수립하여 분석관점을 정하고, 지표값을 도출하기 위해 데이터를 가공하는 편이다. 예를 들면, 홍길동이 2017년 8월 27일 15시 30분에 모 백화점에 진입했다는 이벤트는 ['c_cluster_235', 'Place_B', '1530'], ['gryffindor', 'dept', '201708']과 같이 필요한 형태의 정보로 가공하여 서버로 전송하는 식이다. 첫 번째는 고객그룹 235인 고객이 B라는 장소에 오후 3시 30분에 도착했다는 정보이고, 두 번째는 그리핀도르라는 고객그룹의 일원이 8월에 백화점에 방문했다는 정보이다.[각주:10] [각주:11] 이런 식이면 고객정보 활용 동의 절차도 유연하게 처리 가능하다.

물론 데이터에 관심이 적었다면, 데이터 가공기준을 잡지 못한다. 이제까지 이야기한 모든 게 그림의 떡이다. 개인정보 보호를 감안한 데이터 저장 및 활용이 궤도에 오르기에는 상당한 시행착오를 요하며, 사업을 지속하는 한 종점이 없는 일이지만 열매는 달콤할 거라 확신한다.

  1. '인공지능'에 비해 '4차산업혁명'은 너무 약팔이처럼 느껴지는 모양이라 언급하지 않겠다. [본문으로]
  2. 전시성? [본문으로]
  3. Data Warehouse, Data Lake, Data Hub 등 [본문으로]
  4. 민감정보가 없는 단순한 시계열 데이터는 raw data 저장이 적절하다. [본문으로]
  5. 범주 별 합계 및 각종 평균 등 [본문으로]
  6. 스마트폰 관점으로는 데이터 통신량과 백그라운드 작업을 줄이므로서 고객에게 나쁜 면으로 눈에 띄지 않는 효과가 있다. [본문으로]
  7. 민감정보 [본문으로]
  8. 빅데이터 시대에 한국에 사는 실무자로서 정체성 위협을 받을 정도로 스트레스인 수준 [본문으로]
  9. 라즈베리파이 정도? [본문으로]
  10. 백화점은 마트나 편의점보다는 방문빈도가 뜸하므로 분석관점에 따라 연월일시분초 수준 상세는 무의미할 수 있다. [본문으로]
  11. 가공기준이 rule로 가능하다면 해당 rule이 스마트폰 앱이나 센서 네트워크 허브에서 동작하거나, 이벤트 주체가 속한 그룹이 무엇인지 실시간으로 서버에 질의해도 좋다. [본문으로]
반응형