빅데이터분석필기[1과목 ]빅데이터 분석 기획 - 1.빅데이터 이해
1.1. 빅데이터 이해
* 데이터의 정의 - 데이터란 이론을 세우는데 기초가 되는 자료 혹은 컴퓨터가 처리 할수있는 문자, 소리, 숫자 그림 등의 형태로 되어 있는 자료를 뜻함. 만약 데이터가 의미를 담고 있으면 정보라고 부르고 의미를 담고 있지 않으면 자료로 본다.
* 데이터의 유형
1. 정량적 데이터 (정형데이터) - 수치로 표현될수 있는 데이터 , ex> 영화평점, 시험성적,
2. 정성적 데이터 (비정형데이터) - 수치로 표현이 될수 없는 데이터 ex> 영화 감상평
3. 반정형 데이터 - 데이터 구조정보(메타데이터)를 함께 제공하는 형식
- 구조적 관점의 빅데이터 유형: 정형/ 반정형/ 비정형
정형 데이터 | 반정형 데이터 | 비정형 데이터 |
스키마구조 O 고정필드 O |
스키마구조 O 메타데이터 O 고정필드 X |
스키마구조 X 메타데이터 X 고정필드 X |
RDBMS (Oracle, MS-SQL) 스프레드시트 |
XML, JSON, HTML, RSS 웹/시스템 로그, 알람, 센서 데이터 |
텍스트, 이미지, 동영상, 오디오 SNS, 이진파일 |
* 지식유형
1. 암묵지 - 공통화와 내면화가 필요한 지식으로 , 학습과 경험을 통해 개인이 습득했지만 겉으로 드러나지 않은 상태의 지식
2. 형식지 - 암묵지가 문서로 정리되어 여러 사람이 공유 할 수 있는 지식
* 데이터 기반 지식 경영의 핵심 이슈는 암묵지와 형식지의 상호 작용에 있다
* 상호작용에는 공통화, 표출화, 연결화, 내면화가 있다.
상호작용 | 내용 |
공통화 (Socialization) |
다른 사람과의 대화 등 상호작용을 통해 개인이 암묵지를 습득하는 단계 (암묵 -> 암묵) |
표출화 (Externalization) |
형식지 요소중의 하나이며, 개인에게 내재된 경험을 객관적인 데이터 문서나 매체로 저장하거나 가공, 분석하는 과정 (암묵-> 형식) |
연결화 (Combination) |
형식지가 상호 결합하면서 새로운 형식지를 창출화는과정 (형식지 상호결합) |
내면화 (Internalization) |
행동과 실천교육등을 통해 형식지가 개인의 암묵지로 체화 되는 단계 (형식 -> 암묵) |
* 데이터베이스
- 전사적, 체계적으로 관리되어있는 데이터들의 집합
* DBMS( 데이터베이스 관리 시스템)
- 사용자가 데이터베이스를 쉽게 구축 또는 관리 할수 있게 하는 소프트웨어
* 빅데이터 개념
- 빅데이터란 막대한 양의 정형및 비정형 데이터들을 의미
- 양적 뿐만아니라 질적으로도 복잡한 데이터
- 데이터로부터 가치를 추출하고 결과를 분석하는 기술의 의미로도 통용
- 데이터로 부터 가치를 추출하는 것을 통찰, 지해를 얻는 과정으로 Ackoff.R.L. 이 도식화한 DIKW 피라미드로도 표현
* DIKW 피라미드
데이터(Data | 정보(Information) | 지식(Knowledge ) | 지혜(Wisdom ) |
객관적 사실로서 다른 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호 | 가공처리하여 데이터간의 연관관계와 함께 의미가 도출된 요소 | 정보를 구조화하여 유의미한 정보로 분류하고 일반화 시킨 결과물 | 깊은이해를 바탕으로 도출되는 창의적인 생각, 아이디어 |
컴퓨터가 A사이트에서 가격이 30000원 | 사이트A보다 사이트B에서 더 비싸게 판매 |
사이트A에서 더 싸므로 컴퓨터를 구매할 계획 |
사이트B의 타제품들도 사이트A보다 더 비쌀 것으로 예측판단 |
* 데이터 양을 측정하는 단위
- 바이트 크기 비교-킬로 (KB - 10^3 Bytes)< 메가 (MB) < 기가 (GB) < 테라 (mB-10^12바이트) < 페타 (PB) < 엑사 (EB) < 제타 (ZB)< 요타(YB-10^24바이트
- KB < MB < GB < TB < PB < EB < ZB < YB
- 킬로 < 메가 < 기가 < 테라 < 페타 < 엑사 < 제타 < 요타
- 테라바이트 = 10^12 바이트
빅데이터 특징- 3V (규모/ 다양성/ 속도) - 5V (신뢰성/ 가치) - 7V (정확성/ 휘발성)
규모 (Volume) 다양성 (Variety) 속도 (Velocity) |
신뢰성 (Veracity) 가치 (Value) |
정확성 (Validity) 휘발성 (Volatility) |
- 규모: 정보량의 기하급수적 증가 - 다양성: 정형/ 비정형/ 반정형(자원유형) - 속도: 실시간성/ 가속화 요구 |
- 신뢰성: 노이즈&오류 제거로 품질향상 - 가치: 빅데이터 수집 데이터를 통해 얻을수있는가치 |
- 정확성: 유효성/ 질높은 데이터 - 휘발성: 데이터가 의미있는 기간 |
* 빅데이터 가치
1. 경제적자산 - 새로운기회 창출
2. 불확실성 제거 - 사회현상에 대한 미래 전망
3. 스마트한 경쟁력 - 인공지능을 통환 개인화 서비스 제공
4. 타분야 융합 - 타분야 와의 융합을 통한 새로운 가치 창출
* 수요증가는 아님
* 빅데이터 가치 창출의 어려움
1. 데이터 를 어떠한 방식으로 어디에 활용하는지 알수없다.
2. 빅데이터는 기존에 없던 새로운 가치를 창출할수 있기에 판단이 어렵다
3. 현재는 가치가 없는 데이터지만 미래에는 가치가 있을수 있다.
* 빅데이터가 만들어 내는 변화
사전처리 -> 사후처리
표본조사 -> 전수조사 (전수 조사를 통해 샘플링에서 얻지못하는 패턴이나 정보를 발견)
질 -> 양
인과관계 -> 상관관계
* 빅데이터의 단점과 통제 방안
1. 사생활 침해
- 개인정보 동의 보다는 개인정보를 사용하는 이들의 책임으로 해결 (책임강조) , 인스타에 여행 간다고 게시 → 자택 범죄 노출
2. 책임원칙훼손
- 빅데이터를 통해 만들어진 모형으로 피해보는 사람들이 생길수 있다. (책임을 묻기도 전에 예측이되어 범인이 체포되는경우,민주주의 국가 원리는 잠재적 위협이 아니라, 명확한 결과에 대한 책임을 물음 - 결과기반책임적용)
3. 데이터 오용
- 데이터를 통해 잘못된 인사이트를 얻는경우 손실 발생할수 있다. ( 언제나 맞을 수는 없다는 오류, 잘못된 지표를 사용하는 오용, 알고리즘에 대한 접근성을 보장해서 해결할수 있음)
* 가트너의 분석가치 에스컬레이터
1.묘사분석 - 과거의 일과 현재의 일을 정확하게 살펴보는 것 (예- 소비자의 반응과 취향등을 파악하는것)
2.진단분석 - 묘사분석에서 발견된 분석 내용의 원인을 파악하고 이해하는 과정
3.예측분석 - 데이터를 통해 기업과 조직의 미래, 고객의 행동들을 예측하는 과정
4 처방분석 - 예측을 통해 이루어지는 최적화 과정이다(예-특정 시점에서 예측을 통해 고객의 이탈을 막을수 있는 방법을 분석하는것 )
* 데이터에 대한 일차원적인 분석
1. 금융서비스 - 신용점수 계산, 사기 탐지, 가격책정, 프로그램트레이닝, 고객 수익성 분석등
2. 에너지 - 트레이딩, 공급 /수요 예측
3. 병원- 가격책정, 고객 로열티, 수익관리
4. 정부- 사기탐지, 범죄방지, 수익최적화
5.제조업- 수요예측, 재고보충, 맞춤형상품개발
6, 헬스케어- 약품거래, 예비진단, 질병관리
* 데이터 엔지니어 : 비지니스를 이해하고 데이터 세트 제공
* 데이터 분석가: 최적의 의사결정을 내리는데 도움을 주는 인사이트 제공
* 데이터 사이언티스트: 머신러닝 모델을 통해 인사이트 제공, 통계학 알고리즘,데이터마이닝,시각화 기법을 통해 그속에서 가치를 찾아내는 사람
* 데이터 사이언스 - 데이터로 부터 의미있는 정보를 추출해내는 학문
- 인문학적 열풍 으로 패러다임변화 , 생산에서 시장창조로의 변화, 제품생산에서 서비스로의 변화
* 데이터 사이언티스트가 갖춰야 하는 역량
1. 하드스킬 - 빅데이터 관련지식 기술
2. 소프트스킬- 창의적사고, 호기심, 스토리 텔링, 커뮤니케이션(통찰력, 협력, 전달력)
* 가트너는 데이터 사이언티스트가 갖추어야 할 역량으로 분석모델링, 데이터 관리, 소프트스킬, 비즈니스 분석을 제시함
* 데이터 분석 거버넌스
- 데이터 분석이 조직의 전략과 목표에 부합되게 운영하는 관리 체계를 의미
- 원칙 , 조직, 프로세스로 구성
- 데이터 거버넌스 체계는 데이터 표준화, 표준화 활동, 데이터 관리체계, 데이터 저장소 관리로 구분된다
* 빅데이터 조직 구조 설계시 고려할 특성
-공식화 , 분업화 , 직무전문화, 통제 범위, 의사소통 및 조정 등
* 조직평가를 위한 성숙도 단계
1. 도입단계 - 분석을 시작해 환경과 시스템을 구축하는 단계
2. 활용단계 - 분석 결과를 실제 업무에 적용하는단계
3. 확산단계 - 전사 차원에서 분석을 관리하고 공유하는 단계
4. 최적화단계 - 분석을 진화시켜서 혁신 및 성과 항상에 기여하는 단계
* 사분면 분석 유형
* 준비형 - 데이터 분석을 위한 낮은 준비도와 낮은 성숙도 수준에 있는기업
* 정착형 - 준비도는 낮으나 조직, 인력, 분석 업무 분석기법 등을 기업내부에서 제한적으로 사용하고 있어 일차적으로 정착이 필요한 기업
* 도입형 - 기업에서 활용하는 분석업무, 기법은 부족하지만 적용조직등 준비도가 높아 바로 도입 할수 있는 기업
* 확산형 - 기업에 필요한 6가지 분석 구성요소를 갖추고있고, 지속적인 확신이 필요한 기업
* 빅데이터 조직의 직무별 역량 모델링 개발 단계
- 조직 미션&성과목표&CSF 검토 - 조직 구성원 행동특성 도출 - 역량 도출 - 역량 모델 확정
* 핵심성공요인 (CSF): 목표성취를 위해 필요한 요소/ 기업 경쟁력 향상을 위한 핵심 내부역량
* 핵심성과지표 (KPI): 목표가 달성되었는지 실적을 추적하기 위한 정량화된 측정지표
* 균형 성과표(BSC)의 관점 4가지
- 재무/ 고객/ 내부프로세스/ 학습&성장 → BSC를 통한 KPI 도출
* 빅데이터 조직 구조
1. 집중구조 - 분석 업무와 중복 될수 있다. 부서별 분석진행, 이중화 이원화 가능성이 높음
2. 기능구조 - 전사핵심 분석이 어렵고 , 과거 실적분석에 국한됨, 분석조직이 따로 없고 해당부서에서 분석 수행
3. 분산구조 - 분석조직인력을 현업부서로 직접 배치에 업무수행, 분석 수준 상향 평준화, 업무와 역활 분담을 명확히 해야함
* 조직 성과 평가단계
목표설정 - 모니터링 - 목표조정-평가시행 - 결과 피드백
* 빅데이터 플랫폼 구성요소
- 수집 , 저장, 분석, 활용의 요소로 구성
구성요소 | 주요기능 |
데이터수집 | - 원천 데이터의 정형/ 반정형/ 비정형 데이터 수집 - ETL, 크롤러 , EAI 등 |
데이터저장 | - 정형데이터, 반정형데이터, 비정형데이터저장 -RDBMS, NoSQL 등 |
데이터분석 | - 텍스트분석, 머신러닝, 통계 , 데이터 마이닝 - SNS 분석, 예측분석 |
데이터활용 | - 데이터 가시화 및 BI, Open API 연계 - 히스토그램, 인포그래픽등 |
* 크롤러(crawler)
- URL에 존재하는 HTML 문서에 접근하여 해당내용을 추출하고, 문서에 포함된 하이퍼링크를 통해 재귀적으로 다른문서에 접근하여 콘텐츠 수집을 반복하는 기술
* EAI( Enterprise Architecture Integration)
- 기업에서 운영하는 서로다른 기종의 애플리케이션및 시스템을 통합하는 솔루션
* NoSQL
- Data에 고정된 스키마가 필요 없다
- 수평확장가능하고 조인연산을 사용할수 없다
-일관성있고, 언제든지 data에 접근가능하다
- 대규모 data 저장가능하고 관련 제품으로 Hbase등
- NoSQL 유형 : Doccument, Wide Column, Key-Value, Graph
* ETL
- 정형데이터를 추출(Extract), 가공(Transform), 적재(Load) 하는 기술
* BI(Business Intelligence)
- 데이터를 통합 분석하여 기업활동에 연관된 의사결정을 돕는 프로세스
* 히스토그램(Histogram)
- 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 차트
* 인포그래픽(Infographics) = infomation + graphic
- 중요정보를 하나의 그래픽으로 표현해서 보는사람들이 쉽게 정보를 이해할수 있도록 만드는 시각화 방법
* 빅데이터 관리 플랫폼
- 데이터를 수집하여 활용 가능한 형태의 데이터로 관리하기위해 수집-저장-처리-분석-시각화 등을 수행하는 소프트웨어 플랫폼
- 하둡, HDFS, 맵리듀스, Spark
* 빅데이터 분석플랫폼 - 텍스트마이닝, 인공지능 알고리즘등 다양한 빅데이터 분석으로 의미있는 인사이트를 추출하는 분석 기반의 소프트웨어 플랫폼
- Mahout, R, Spotfire, Tableau, Python
빅데이터 플랫폼 구축 소프트웨어 | |
R | - 오픈소스 프로그래밍 언어 -S언어를 기반으로 만들어짐 / 강력한 시각화 기능 |
우지 Oozie |
- 맵리듀스,피그 등으로 구성된 워크플로우 제어 - 하둡 작업(job) 관리 / 워크플로우 및 코디네이터 시스템 / 스케줄링 및 모니터링 |
플럼 Flume |
- 대량 로그 수집 - 이벤트&에이전트 -여러 서버에서 생산된 대용량 로그 데이터를 수집하여 원격 목적지에 데이터를 전송하는 기능 |
HBase | - 컬럼기반 저장소, 분산 데이터베이스 - HDFS와 인터페이스 제공(큰 테이블에 대한 빠른 조회 가능 / HDFS 위에 구축되어, HDFS에 있는 데이터에 랜덤 엑세스 및 읽기) |
스쿱 Sqoop |
- 정형데이터수집 - SQL to Hadoop - RDBMS ↔ HDFS |
분산 컴퓨팅 환경 소프트웨어 구성요소 | |
맵리듀스 Map Reduce |
- 맵 → 셔플 → 리듀스 순서대로 데이터 처리 - 맵: Key-Value 형태로 취합 - 셔플: 데이터통합 - 리듀스:맵처리된 데이터 정리 -대용량 데이터를 위한 분산 병렬 처리 소프트웨어 프레임워크 |
얀 YARN |
- 자원 관리 플랫폼 - 리소스 매니저(Master)/ 노드 매니저(Slave) - 리소스 매니저: 스케줄러 / 클러스터 이용률 최적화 수행 - 노드 매니저: 노드 내 자원 관리 / 리소스 매니저에 보고 - 애플리케이션 마스터: 자원 교섭 / 컨테이너 실행 - 컨테이너: 프로그램 구동을 위한 격리 환경 지원 |
아파치 스파크 |
- 실시간 데이터 처리 - 대규모 분산처리시스템 - 저장이 아니라 데이터 프로세싱하는 역할 |
HDFS(하둡 분산 파일 시스템) |
- 분산된 서버에 저장/ 처리 -Master(네임노드)-Slave(데이터노드) - 네임 노드: 속성 기록 (파일 이름, 권한 등) / 메타 데이터 관리/ 데이터 노드 모니터링 - 데이터 노드: 데이터 저장/ 일정한 크기로 나눈 블럭 형태로 저장함 |
아파치 하둡 |
-클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석 -저장을 담당하는HDFS, 분산데이터를 배치하는 맵리듀스(Mapreduce), 분산저장된 클러스터를 관리하는 얀(Yarn)를 중심으로 하는 하둡 에코시스템을 가진다 |
빅데이터 플랫폼 데이터 형식 - HTML, XML, CSV, JSON
* 하둡에코시스템 - 하둡 프레임워크를 이루는 다양한 서브 프로젝트 들의 모임
- 수집, 저장, 처리 기술과 분석, 실시간 sql 질의 기술로 구분
- 수집, 저장, 처리 기술
- 비정형 데이터 수집: 척와/ 플럼/ 스크라이브
- 척와 (Chukwa): 분산된 서버에서 에이전트 실행 → 컬렉터가 데이터 받아서 HDFS 저장
- 플럼 (Flume): 대량 로그데이터 수집, 집계, 이동 / 이벤트, 에이전트를 활용하는 기술
- 스크라이브 (Scribe): 대용량 실시간 스트리밍 로그 데이터 수집 기술
- 정형 데이터 수집: 스쿱/ 히호
- 스쿱 (Sqoop): 대용량 데이터 전송 솔루션 / 커넥터를 사용하여 RDBMS ↔ HDFS
- 히호 (Hiho): 대용량 데이터 전송 솔루션 / 깃허브에 공개되어 있음
- 분산 데이터 저장: HDFS
- HDFS: 대용량 파일을 분산된 서버에 저장, 저장된 데이터를 빠르게 처리할 수 있게 하는 시스템
- 범용 하드웨어, 서버 기반/ 데이터 접근 패턴을 스트리밍 방식으로 지원 / 자동복구
- 분산 데이터 처리: 맵리듀스
- 분산 데이터베이스: HBase
- 데이터 가공, 분석, 관리를 위한 주요 기술
- 데이터 가공: 피그/ 하이브
- 피그 (Pig): 대용량 데이터 집합을 분석하기 위한 플랫폼 / 맵리듀스 API 매우 단순화 / SQL과 유사한 형태
- 하이브 (Hive): 하둡 기반 DW 솔루션 / SQL과 유사한 HiveQL 쿼리 제공
- 데이터마이닝: 머하웃
- 머하웃 (Mahout): 하둡 기반 데이터 마이닝 알고리즘을 구현한 오픈 소스 (분류, 클러스터링, 추천 및 협업 필터링 등)
- 확장성을 가진 머신러닝용 라이브러리 (mahout.apache.org)
- 머하웃은 코끼리 조련사를 뜻한다
- 실시간 SQL 질의: 임팔라
- 임팔라 (Impala): 하둡 기반 실시간 SQL 질의 시스템/ 인터페이스로 HiveQL 사용/ 수초 내에 결과 확인 가능
- 오픈소스 대규모 병렬 처리 SQL 쿼리 엔진(impala.apache.org)
- 워크플로우 관리: 우지
- 우지 (Oozie): 하둡 잡 관리용 워크플로우 및 코디네이터 시스템 / 자바 웹 애플리케이션 서버
- 분산 코디네이션: 주키퍼
- 주키퍼 (Zookeeper): 분산 환경에서 서버 간 상호조정이 필요한 다양한 서비스를 제공하는 시스템
- 한 서버에만 서비스가 분산되지 않도록 분산, 한 서버에서 처리한 결과를 다른 서버들과 동기화
- (zookeeper.apache.org)
* 머신러닝과 딥러닝
* 머신러닝 - 머신러닝은 학습데이터를 바탕으로 모형을 학습시킨후, 새로운 데이터에 대하여 예측하는 모형을 의미한다
- 서포트 벡터머신, 결정트리, 부스팅, 랜덤 포레스트등
* 딥러닝 - 머신러닝에 속하는 한종류이며 , 인공신경망을 사용 , 비지도학습이 결합, 스스로 학습할수 있는 인공지능기술
- 인공지능 ⊃ 머신러닝 ⊃ 딥러닝
* 마이데이터
- 기업에서 수집된 데이터를 제 3자에게 공유할수 있도록 하는 개인정보 전송요구권
* 마이데이터 진행 방식
1. 데이터 통제 - 개인이 개인 데이터의 접근, 이동 활용등에 대한 통제권및 결정권을 가짐
2. 데이터 제공 - 개인 데이터를 보유한 기관은 개인이 요구할때 , 개인데이터를 안전한 환경에서 쉽게 접근하여 이용할수 있는 형식으로 제공
3. 데이터 활용 - 개인의 요청및 승인에 의한 데이터의 자유로운 이동과 제3자 접근이 가능해야하며 그활용결과를 개인이 투명하게 알수있어야함.
* 개인정보 자기 결정권
1. 데이터 처리에대한 정보를 제공받을 권리
2. 처리에 관한 동의 여부, 동의 범위등을 선택하고 결정할 권리
3. 처리 여부를 확인하고 개인정보에 대하여 열람을 요구할 권리
4. 처리정지, 정정, 상제 및 파기를 요구할 권리
* 개인정보 비식별조치 가이드라인 - 개인정보를 보장하면서 데이터 활용을 촉직하기위한 제도
* 개인정보보호 관련 법 - 개인정보 보호법/ 정보통신망법/ 신용정보법
개인정보 보호법 | 정보통신망법 | 신용정보법 |
개인정보 처리 과정상의 정보주체와 개인정보 처리자의 권리, 의무들 규정 |
정보통신망을 통해 수집/ 처리/ 보관/ 이용 되는 개인정보의 보호에 관한 규정 |
개인 신용정보의 취급 단계별 보호조치, 의무사항에 관한 규정 |
* 개인정보 비식별 조치 가이드라인의 적정성 평가단계
- 기초자료작성 - 평가단구성 - 평가수행 - 추가 비식별 조치 - 데이터활용
* 비식별 조치 단계 절차
- 사전검토 - 비식별조치 - 적정성 평가 - 사후관리
* 프라이버시 보호 모델
1. k - 익명성 - 주어진 data 집합에서 같은 값이 적어도 k개 이상 존재하게 하여 쉽게 다른정보로 결합할수 없게 하는 모델
- 공개된 데이터에 대한 연결공격 취약점을 방어하기 위한 모델
2. l - 다양성 - 주어진 data 집합에서 비식별 되는 레코드들은 적어도 l 개의 서로 다른 민감한 정보를 가져야 하는 프라이버시 모델
- 비식별 조치 과정에서 충분히 다양한 (1개이상) 서로다른 민감한정보를 갖도록 동질집합을 구성
- k - 익명성에 대한 2가지 취약점 공격인 동질성 공격, 배경지식에 의한 공격을 방어하기위한 모델
3. t - 근접성 - 동질 집합에서 특정 정보의 분포와 전체 Data 집합에서 정보의 분포가 t 이하의 차이를 보여야하는 모델,
- 민감정보 분포의 차이를 유사하게 만듬
- I- 다양성의 쏠림공격과, 유사성공격을 보완하기위해 제안된모델
4. m - 유일성 - 원본 data 와 동일한 속성 값의 조합이 비식별 결과 data 에 최소 m개 이상 존재하도록 하여 재식별 가능성 위험을 낮춘 모델
* 동질성공격 - k-익명성에 의해 레코드들이 범주화 되었더라도 일부정보들이 모두 같은 값을 가질수 있기 때문에 데이터 집합에서 동일한 정보를 이용하여 공격대상의 정보를 알아내는 공격
* 배경지식에 의한 공격 - 주어진 데이터 이외의 공격자의 배경지식을 통해 공격대상의 민감한 정보를 알아내는 공격
* 쏠림공격 - 정보가 특정한 값에 쏠려있을경우 - l -다양성 모델이 프라이버시를 보호하지못하는것을 악용한 공격
* 유사성공격 - 비식별 조치된 레코드의 정보가 서로 비슷 하다면 l - 다양성모델을 통해 비식별 된다고 할지라도 프라이버시가 노출될수 있을음 악용한 공격
* 개인정보 비식별화 기법
1. 가명처리 - 휴리스틱가명화, 암호화, 교환방법 , k-익명화
- 홍길동 , 35세 -> 임꺽정, 30대
- 휴리스틱 익명화(Heuristic Anonymization): 정해진 규칙에 따라서 or 사람의 판단에 따라서 개인정보 숨김
- K-익명화(K-anonymity)
- 같은 속성값 가지는 데이터를 K개 이상으로 유지
- 지정된 속성이 가질 수 있는 K개 이상으로 유지
- 암호화(Encryption): 일정 규칙의 알고리즘을 적용하여 암호화하여 대체
- 복호화 값(key)에 대한 보안 방안도 함께 필요
- 교환방법(Swapping): 추출된 표본 레코드에 대해 교환
2. 총계처리 - 총합, 부분합, 라운딩, 재배열
- 임꺽정180cm, 홍길동 175cm -> 학생키의 평균 175cm
- 총계처리 기본 방식: 데이터 집합 or 부분적으로 총합, 평균 처리
- 부분 집계(Micro Aggregation): 부분 그룹만 처리 (다른 속성값에 비해 오차범위가 큰 항목 등)
- 라운딩(Rounding): 올림 or 내림 기준을 적용
- 데이터 재배열(Rearrangement): 기존 정보값은 유지, 개인정보와 연관되지 않도록 재배열
- 개인 정보와 타인 정보가 뒤섞임 → 전체 정보의 손상없이 비식별 처리
3. 데이터삭제 - 식별자 삭제, 부분삭제, 식별요소 전체 삭제
- 주민등록 번호 901206 -> 90 년대생
- 속성값 삭제(Reducing Variables): 개인식별항목 단순 제거
- 속성값 부분 삭제(Reducing Partial Variables): 일부 값 삭제 → 대표성을 가진 값으로 보이도록 함
- 데이터 행 삭제(Reducing Records): 민감한 속성값을 가진 개인정보 내용 전체를 제거함
- 준식별자 제거: 식별자 뿐만 아니라 준 식별자를 모두 제거 → 프라이버시 침해 위협 줄임
4. 데이터범주화 - 대표값이나 구간값으로 변환, 랜덤라운딩, 제어라운딩, 범위화, 감추기 범주화
- 홍길동, 35세 -> 홍씨, 30-40세
- 범주화 기본 방식(은폐화): 평균 or 범주의 값으로 변환 → 명확한 값을 숨김
- 랜덤 올림(Random Rounding): 임의의 수 기준으로 올림(Round up) or 절사(Round down)
- 제어 올림(Controlled Rounding): 랜덤 올림의 단점 해결 → 행과 열이 맞지 않는 것을 제어하여 일치시킴
- 범위 방법(Data Range): 해당 값의 분포(범위, 구간)으로 표현
- 세분 정보 제한 방법(Sub-divide Level Controlling): 민감 항목, 높은 시각 항목을 상한, 하한 코딩, 구간 재코딩
5. 데이터 마스킹 - 임의의 잡음추가, 공백 ,대체 , 식별정의, 전체 또는 부분대체
- 홍길동 -> 홍 oo
- 임의 잡음 추가 방법(Adding Random Noise): 임의의 숫자 등의 잡음을 더하거나 곱하여 노출 방지
- 공백(Blank)과 대체(Impute) 방법: 비식별 항목을 공백으로 바꿈 → 대체법 적용하여 공백을 채움
* 개인정보처리제한
- 민감한 정보등 사생활을 침해할 우려가 있는 정보는 처리를 금지한다.
- 채용지원서에는 주민등록 번호 기재 요구하여 데이터를 수집할수 없다.(범죄등 신원을 조회할경우는 가능)
* 개인정보 보호법 15조 개인정보의 수집, 이용
1. 정보주체의 동의를 받은경우
2. 법률에 특별한 규정이 있거나 법령상 의무를 준수하기 위하여 불가피한경우
3. 공공기관이 법령등에서 정하는 소관업무의 수행을 위하여 불가피한경우
4. 정보주체와의 계약의 체결및 이행을 위하여 불가피하게 필요한경우
- 필요목적 이외에는 개인정보를 사용하면 안됨!!