본문 바로가기
그냥/온갖잡자료

빅데이터 관련 개인정보 비식별화 및 암호화 사례 공유

by wizmusa 2016. 4. 13.
  • 빅데이터 국가전략 포럼이 조사한 국내 사례 (출처: 비식별화 사례집-빅데이터 국가전략 포럼)
    • 국민건강공단 국민건강 주의예보 서비스
      1. 수행: 다음소프트
      2. 활용 데이터
        - 국민건강보험공단: 국민건강정보(진료내역 데이터)
        - 다음소프트: SNS 데이터(트위터, 카페)
      3. 적용사항
        ① 가명처리 (식별번호 대체)
           - 요양기관기호(8자리) → 요양기관대체번호(6자리)

             예) 31100678(일산병원) → 123456
        ② 삭제 (전부 또는 일부삭제)
           - 주민등록번호(13자리) → 삭제

             예) 110011-1479712 → “ ”
           - 주소 → 16개 시도

             예) 11110(서울특별시 종로구 삼봉로 43) → 11(서울특별시)
        ③ 범주화 (그룹화)
           - 연령(0∼80세 이상) → 18개층 (5세 단위 구간)
             예) 53세 → 12 (50~54세 구간)
           - 소득 → 보험료분위 (전체 대상자 - 세대 - 를 20분위 균등분할)
             예) 보험료 103,530원 → 14분위
        ④ 마스킹 (특수문자 대체)
           - 공단에서 규정한 민감상병의 주상병, 부상병코드

             예) 상병기호의 대분류만 표시: A**** (A: 특정감염 및 기생충성 질환, 콜레라)
             예) 전체 상병기호 표시하지 않음: **** (D: 남성 생식기관의 양성 신생물)
    • 서울아산병원 보건의료 빅데이터 활용 서비스
      1. 수행: 한국전자통신연구원, 한국마이크로소프트(유), (주)테크아이, 켐아이넷(주), 한국쌔스소프트웨어(유)
      2. 활용 데이터: 검색 데이터, SNS 데이터, 입/퇴원 기록, 병원 경영자료, 실시간 환자 심전도/심박수, 진료 데이터, 국과수 마약류 관련 DB, SNS 데이터
      3. 적용사항
        ① 가명처리 (등록번호 대체)
           - 환자등록번호 (8자리) → 임의로 생성된 번호 (8자리)

             예) 11111111 → 92429988
        ② 삭제 (테이블 컬럼)
           - 성명 → 삭제

             예) 홍길동 → “”
           - 주소 → 삭제

             예) 서울특별시 송파구 풍납2동 388-1 → “”

        ③ 마스킹 (특수문자 대체)
           - 주소

             예) 서울특별시 송파구 풍납2동 388-1 → ***** *** **** *****
           - 각종 연락처

             예) 전화: 010-111-1111 → 전화: ***-***-****
    • 빅데이터 기반 의약품 안전성 조기경보 서비스
      1. 수행: 에스지에이(주) /참여기관: 한국의약품안전관리원, (주)와이즈넛
      2. 활용 데이터
        - 와이즈넛: SNS (블로그, 지식인, 카페, 트위터), 뉴스(웹), 문헌(웹) 데이터
        - 아주대학교병원: EMR(전자의무기록)
      3. 적용사항
        ① 가명 처리 (식별번호 대체)
            - 환자 아이디를 고유 아이디로 생성하여 문자 형식으로 저장하여 개인식별을 곤란하게 함
              예) 환자 아이디(6자리) → 고유 아이디 생성(36자리)
                  0001012 -> E214F58E-9E3F-44B7-B3A3-9854BF439216

                  (환자 별로 날짜에 기반한 –90~90 사이 랜덤 숫자를 발생하여 식별이 곤란하게 함)
            - 날짜: 랜덤 숫자 처리
              예) 20101010 → 20110118

        ② 삭제 (민감 데이터 삭제)
           - 환자의 진단명중 민감한 정보를 삭제 (사생활 정보의 식별을 곤란하게 함)

             → 성명, 에이즈 감염, 비정상적인 염색체 이상, 낙태 등 삭제(민감 데이터 삭제)
             예) 진단명: AIDS → 해당 자료 삭제 (진단 코드: B20* → B20으로 시작하는 코드 삭제)
        ③ 범주화: (그룹화)
           - 80세 이상 나이를 80으로 고정하여 명확한 나이를 감춤

             예) 나이: 80이상 → 80으로 고정 (86세 → 80세 적용)
    • 점포 평가 서비스
      1. 수행: ㈜오픈메이트 / 참여기관: 비씨카드㈜, 한국감정원
      2. 활용 데이터
        - 비씨카드: 월 2억건씩 누적되는 카드거래 데이터 중 서울지역 2억건(3년치)
        - 한국감정원: 부동산 임대시세 및 건축물 대장 데이터
        - 소상공인진흥원: 소상공인 상가정보(점포명, 업종, 주소, 전화번호) 총 1억건
          (월 300만건 누적, 3년치)
        - 인문사회지리 데이터: 인구, 가구세대, 36만 블럭
      3. 적용사항
        ① 가명처리 (식별번호 대체) 업소명 → 업소ID
            예) 김가네김밥: 업소명 → 업소ID B3231123_23
        ② 총계처리 (총합 집계)
            - 추정매출액 = 원시매출액 * 추정현금비율 * 카드사시장점유비(MS)
            - 지역별업종추정평균매출액 = Σ(업소별추정매출액)/업소수
            - 매출범위로 환산 : 5314000원 → 추정매출 5,000천원∼6,000천원
              (3. 범주/범위화 기법과 혼용)
        ③ 범주화 (그룹핑) 300만개 업소 → 1,500개 업종으로 그루핑할 수 있도록 유형화
            예) 김가네깁밥 → 음식>분식
            예) 김밥천국 → 음식>분식
        ④ 마스킹 (특수문자 대체)
           - 업소전화번호가 핸드폰 번호일 경우 마스킹 처리

             예) 010-4333-1234 → 010-****-****
    • 서울시 빅데이터 분석을 통한 심야버스 노선정책 지원
      1. 수행: (주)KT
      2. 활용 데이터
        - KT: CDR(call detail record) 데이터 ⇨ 유동인구파악 고객 통계데이터 ⇨ 목적지 및 이용대상 파악
        - 서울특별시: 공공 데이터 ⇨ 최적 정류소 위치 선정
      3. 적용사항
        ① 삭제 (일부 삭제)
           - 개인정보(성명 등) → 삭제

             예) 홍길동 → “”
        ② 범주화 (헥사곤 형태 가공 및 통계처리)
           - 개인 정보에 가까운 데이터인 연령대 같은 경우 특정 지역(1km 핵사곤형태)으로 가공 및 통계 처리함, 개인을 식별하는 분석이 아니기 때문에 통계처리로 충분함
             예) 핵사곤 A: 연령 10대 1000명 / 연령 20대 500명 / 연령 30대 2000명 ....
           - 청구지 주소의 경우 우편번호 단위를 핵사곤에 매핑 후 지역별 통계로 보기 때문에 개인의 집 위치를 파악하지 않음
             예) 핵사곤 A 에 속하는 우편번호: 690-022/120-200/200-120 → 200명
  • 기타 조사
    • 국내 금융업체 A사
      1. 모든 개인정보 필드에 암호화 적용 → 단일 플랫폼 내에서는 JOIN 가능 (이종 플랫폼 간 JOIN은 하지 않음)
      2. 개인정보를 다루는 분석 작업은 밀실에서 수행하며, 반출/활용 관련 모든 담당부서 승인 프로세스 운영 (전산, 보안, 현업)
      3. R과 같은 Local PC의 어플리케이션에 대한 로그까지 수집하는 시스템 구축
    • 국내 게임업체 A사
      1. 한국에서는 선도적으로 Hadoop과 Hive를 도입
      2. Hadoop 기반의 분석계에 권한체계를 두지 않고 단일권한으로 사용 (∵ Hive는 얼마 전까지 계정 개념이 없어서 권한체계를 갖추지 못했음)
        → 개인정보는 Hadoop에 적재하지 않고, 필요 시에 분석가 혹은 마케터가 업무 시스템을 통해 다운로드한 개인정보를 Local PC에서 조합하여 작업
      3. Hive에서 Query한 로그는 자체개발을 통해 구현했어도 SQL문 내역까지 축적하지는 못하는 게 보편적
  • 해외사례 (IBM)
    • 글로벌 체인 소비재 판매업체
      1. 요건
        - 기업 정보 거버넌스 관리 정책 수립
        - 고객 민감 데이터 보호
        - 법적 규제 준수
      2. 솔루션: InfoSphere Guardium Data Encryption
      3. 구축내역
        - 운영 인프라 환경 변화 없이 빠른 데이터 암호화 시스템 적용
        - 비즈니스 요건 변경에 따른 암호화 요건 변동에 대한 중앙관제 정책 적용체계 구현
        - 정보 거버넌스 관리 정책의 손쉬운 적용체계 구현
        - 보안 관제 솔루션과의 연동
    • 대형 보험사
      1. 요건
        - 신용카드 정보, 개인 의무 기록 등 다양한 개인정보의 보호
        - HIPPA 및 감사 준수
        - 복잡한 전사 환경 내 민감 정보 식별
      2. 솔루션: IBM InfoSphere Optim Data Privacy – Static/Dynamic Masking
      3. 구축내역
        - 전사내 30개 시스템 대상 보안 정책 수립
        - 45,000 테이블 내 민감 정보 자동 탐색 구현
        - 마스킹으로 인한 비식별화 후에도 애플리케이션 로직 준수
    • Santiago Stock Exchange
      1. 요건
        - SaaS 서비스 내에서 법적 규제 준수
        - 전사 애플리케이션에서 생성되는 민감정보 모니터링
        - 인프라 환경 변화 최소화
      2. 솔루션: InfoSphere Guardium DB Activity Monitor – Real-time DB Monitor and Protection
      3. 구축내역
        - 애플리케이션 성능 저하 없이 개인정보 모니터링, 감사 환경 구축
        - 사용자 활동, 내부 특권자 활동, DB별 권한제어 내역에 대한 실시간 모니터링
        - 사용자의 기간계, DW 정보계 등 전사환경에 대한 통합 관제 플랫폼 구현
        - 법적 규제 준수, 자동 감사 리포트
    • 대형 유통사
      1. 요건
        - 방대하고 다양한 개인정보 데이터 처리
        - 빅데이터 플랫폼 적용시 개인정보에 대한 PCI 규제 준수 의무
        - 개발 솔루션의 내부 유출 예방
      2. 솔루션: InfoSphere Data Privacy for Hadoop
      3. 구축내역
        - 빅데이터 내 유연한 정보 공유
        - Hadoop을 비롯한 전사 환경에 대한 컴플라이언스 준수
        - 분석에 필요한 민감 정보 보호


반응형

'그냥 > 온갖잡자료' 카테고리의 다른 글

아웃룩의 RE 붙이기 개수 제한  (0) 2014.05.22
스마트 그리드 자료  (0) 2011.07.01