빅데이터분석 필기[2과목]빅데이터 탐색 2.데이터 탐색
1. 데이터 탐색
* 탐색적 자료분석(EDA)
- EDA - 데이터를 이해하고 의미있는 관계를 찾아내기 위해 데이터의 통곗 값과 분포등을 시각화 하고 분석하는 것
- 데이터 탐색 도구 - 도표, 그래프, 요약통계
- 특징
1. 저항성 (Resistance) - 이상값에 영향 적게 받음 , 부분변동에 민감하지 않고, 평균보다 저항성이 큰 중위수를 대푯값으로 선호
2. 잔차 해석(Residuals) - 주 경향으로부터 벗어난 정도 , 보통과 다른 특징, 왜 존재하는지 탐색
3. 자료 재표현(Re-expression) -적당한 척도(로그변환, 제곱근변환, 역수 변환등)로 바꾸는 것 , 데이터 분석및 해석을 단순화 , 데이터 구조파악에 도움(분포의 대칭성, 선형성, 안정성등)
4. 시각화 (현시성)(Representation) -분석결과를 쉽게 이해할 수 있도록 시각화 , 현시성 = 데이터 시각화, Display, Visualization
* 개별변수 데이터 탐색방법
범주형 (질적) | 수치형 (양적) |
- 명목척도&순위척도 - 분포특성을 중심성, 변동성 측면에서 파악 - 빈도수/ 최빈값/ 비율, 백분율 등 - 막대형 그래프활용 |
- 등간척도&비율척도 -분포특성을 중심성, 변동성, 정규성 측면에서 파악 - 평균/ 분산/ 표준편차/첨도/왜도 등 - 박스플롯/히스토그램 활용 |
* 다차원 데이터 탐색 방법
범주형 - 범주형 | 수치형 - 수치형 | 범주형 - 수치형 |
-연관성을 분석 -빈도수, 비율활용 -> 교차 빈도,비율 백분율분석 - 막대그래프 |
- 상관성&추세성 분석 - 피어슨 상관계수 : 방향 강도 파악 - 산점도/기울기 - 공분산 : 방향성파악 |
- 그룹별 수치형 변수의 기술 통계량을 비교 - 박스플롯 |
* 상관관계 분석
- 2개 이상의 변수간 상호연관성의 존재여부&강도를 측정하는 분석방법
- 변수 사이의 상관관계 종류
- 양의 상관관계 (+): 한 변수↑ 다른 변수↑
- 음의 상관관계 (-): 한 변수↑ 다른 변수↓
- 상관관계 없음 (0): 무관하게 변화
* 상관관계 표현방법
1.산점도 (Scatter Plot) - 가로축과 세로축의 좌표 평면상에서 각각의 관찰 점들을 표시하는 시각화 기법
2. 공분산 (Covariance): 2개 변수간 상관 정도 와 경향
- 0보다 큰가 작은가
- Cov > 0: 상승 경향
- Cov < 0: 하강 경향
- 단위에 따라 값의 크기가 달라짐 → 강도 나타낼 수 없음
3.상관계수 (Correlation Coefficient): 2개 변수간 방향성 과 강도
- 범위: -1 ≤ r ≤ 1
- 1에 가까울수록 강한 양의 상관관계 / -1에 가까울수록 강한 음의 상관관계
- 상관계수 해석
- 상관 계수의 절대값이 1에 가까울수록 강한 상관이 존재한다고 해석
- 상관계수의 부호는 관계의 방향을 의미
* 상관관계 분석의 종류
- 변수의 개수에따라 - 단순 상관분석 / 다중 상관분석
- 단순 상관 분석: 2개 변수 사이의 상관성
- 다중 상관 분석: 3개 이상 변수 사이의 상관성
- 변수의 속성에 따라 - 수치적 / 명목적 / 순서적 데이터
공분산 Covariance |
피어슨 상관계수 | 카이제곱 검정 (교차분석) | 스피어만 순위 상관계수 |
두 변수간 상관정도&경향 | 수치적 데이터 | 명목적 데이터 | 순서적 데이터 |
0보다 크면 상승/ 작으면 하강 | 범위: (-1, +1) ex) 키와 몸무게, 수입과 지출 |
ex) 지역, 종교, 성별 등 | ex) 성적 순위, 만족도 등 |
관계만 파악 | 모수검정, 연속성 변수에 대한것 관계방향과 강도 파악 등간척도및 비율척도로 측정된 수쳥 변수관계측정 두변수의 분산이 동일하다는 전제 |
분류의 의미만 가지므로 상관계수 계산은 의미 없다. |
비모수 검정, 이산형 순서형 변수에 대한것 서열형 척도로 측정된 순서형 변수간 상관관계 한변수를 단조 증가 함수로 변환하여 다른 변수로 나타낼수 있는 정도 두변수간 비선형적인 관계도 나타낼수 있음 |
* 기초통계량
- 중심경향성: 평균/ 중위수/ 최빈값
- 산포도: 범위/ 분산/ 표준편차/ 변동계수/ 사분위수범위
- 분포: 왜도/ 첨도
중심 경향성 | 산포도 (흩어진 정도) | 분포 | ||||
평균 (mean) |
변수총합 / 변수개수 이상값에 의한 변동 변화가심함 |
범위 | 최대값(Max) - 최솟값(Min) | 왜도 | 좌/우 치우친 정도 -왼쪽 편포: 왜도 < 0 (Negative Skew) 왼쪽 꼬리가 긴 분포: Mean < Median < Mode -오른쪽 편포: 왜도 > 0 (Positive Skew) 오른쪽 꼬리가 긴 분포: Mode < Median < Mean -정규 분포: 왜도 = 0 평균 중심으로 대칭인 분포: Mode = Mean = Median |
|
중위수 (median) |
크기순서로 오름차순 정렬 -> 중앙에 위치한 값 변수 홀수 개 : (n+1) /2 번째 변수 짝수 개: n/2 번째와 (n+2)/2 번째 평균 |
분산 | 평균으로부터 편차 * 편차들의 제곱 합 * 모분산은 N 으로, 표본 분산은 (n-1) 으로 나눔 |
첨도 | 뾰족한 정도
|
|
최빈값 (mode) |
가장 많이 관측됨 | 표준편차 | 분산의 양의제곱근 | |||
변동계수 CV | 표준편차 / 평균(측정단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교하기 위함) |
|||||
사분위수 범위 IQR | Q3-Q1(사분편차 : IQR의 절반값) |
* 시각적 데이터 탐색
1. 히스토그램(Histogram)
- 자료 분포 형태를 직사각형 형태로 시각화
- 가로축: 수치형 데이터 구간
- 세로축: 빈도수
- 막대: 붙어 있음
- 막대 넓이 일정 하다
2. 막대형 그래프(Barplot)
- 여러 항목들의 많고 적음을 비교하기 쉽도록 수량을 막대 길이로 표현하는 그래프
- 가로축: 수치형 데이터 아니어도 됨
- 막대: 떨어져 있음
- 막대넓이: 일정 하지 않을수도 있다.
3.박스 플롯(Boxplot)
- 집합의 범위/중앙값/이상값을 빠르게 확인할 수 있는 시각화 기법
- 박스 플롯 = 상자 그림 = 상자 수염 그림
- Q1 = 제 1사분위 = 중앙값 기준으로 하위 50% 중에서 중앙값 = 전체 데이터 중 하위 25%에 해당하는 값
Q2 = 제 2사분위 = 중위수 = 정 가운데 순위에 해당하는 값
Q3 = 제 3사분위 = 중앙값 기준으로 상위 50% 중에서 중앙값 = 전제 데이터 중 상위 25%에 해당하는 값 - 하위 경계 = Q₁ - 1.5 ⨉ IQR
- 상위 경계 = Q₃ + 1.5 ⨉ IQR
- 이상값 = 수염보다 바깥쪽에 있는 데이터
4.산점도(Scatter Plot)
- 가로축 , 세로축의 좌표평면 상에 각 관찰점을 표시하는 시각화 기법
- 2개의 연속형 변수 간의 상관 관계를 볼 수 있음
5. 원그래프
- 전체에 대한 각부분의 비율을 원모양으로 나타낸 그래프
6. 워드클라우드 - 단어로된 구름이미지
* 시공간 데이터
공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치/형상이 변하는 데이터
- 이산적 변화: 수집 주기 일정 X → 시간 변화에 따라 데이터 추가됨
- 연속적 변화: 수집 주기 일정 O → 함수로 연속적인 변화를 표현함
- 시공간 데이터 타입
- 포인트: 하나의 노드
- 라인: 두개의 노드 + 하나의 세그먼트
- 폴리곤: n개의 노드 + n개의 세그먼트
- 폴리라인: n개의 노드 + n-1개의 세그먼트
* 시공간 데이터 탐색 절차
1. 주소를 행정구역으로 변환 - 엑셀또는 스프레드 시트의 문자열 처리 함수를 이용해 쉽게 변환 , 공백문자를 기준으로 분할가능
split(문자열,구분자) | find(찾는문자, 문자열) | left(문자열, n) | mid(문자열, 시작위치, n) |
공백/쉼표 등으로 나눔 | 찾는문자의 문자열 반환 | 가장 왼쪽부터 문자열 n개 | 시작위치부터 문자열 n개 |
2. 주소를 좌표계로 변환 - 시공간 데이터의 주소를 이용하여 위도와 경도로 변환, 지오 코딩 서비스를 이용하여 좌표계로 변환
* 지오코딩서비스 - 위도 와 경도 데이터를 반환하는 서비스
3. 행정구역및 좌표계를 지도에 표시 - 시공간 데이터에 따라 행정구역 데이터를 지도에 표시 하거나 좌표계를 지도에 표시한다.
- 지도에는 코로플레스지도, 카토그램 , 버블 플롯 맵이 있다
- 코로플레스 지도 - 등치지역도
- 데이터 값 크기에 따라 지정한 색상스케일로 영역 색칠
- 지역면젹과 실제 데이터값 크기가 다르다
- 카도그램 - 변량 비례도
- 데이터값 크기에 따라 면적 왜곡
- 직관적으로 인지 가능
- 버블 플롯맵
- 위도, 경도 적용
- 좌표를 원으로
- 원크기, 색깔 반영
* 공간 데이터
- 객체의 위치및 공간관계정보와 관련
* 변량(Variance)
- 조사대상의 특징/성질을 숫자 or 문자로 나타낸 값
* 변량 유형: 종속변수(Y) 수에 따라 → 일변량/이변량/다변량 데이터
- 일변량: 각 단위에 대해 1개의 속성만 측정 - 탐색방법 : 박스플롯
- 이변량: 각 단위에 대해 2개의 특성을 측정, 이변량도 다변량 데이터이다
- 다변량: 각단위에 대해 2개 이상의 특성을 측정
* 다변량 데이터
- 데이터의 차원이 3차원이상일때 다변량이라고함.
* 변량 데이터 탐색
- 일변량 데이터 탐색 방법
- 기술 통계량: 평균/분산/표준편차 등
- 그래프 통계량: 히스토그램/상자그림 등
- 이변량 데이터 탐색 방법: 동시 관측 → 변수간 관계 밝히기
- 다변량 데이터 탐색 방법: 분석 전에 시각적으로 탐색 → 산점도 행렬, 별 그림, 등고선 그림 등
* 다변량 데이터 탐색 도구
- 산점도 행렬: 두 변수간 산점도를 행렬로 → 변수간 연관성 표현
- 그림 행렬: 변수 최대 20개 / 가능한 모든 조합
- 개별 Y대 개별 X행렬: 각 xy조합의 그래프들
- 별 그림
- 점: 별모양의 점을 각 변수에 대응
- 반경: 각 변숫값에 비례
* 다변량 데이터 분석 방법 - 분석이행이전에 시각적자료를 탐색
1. 상관분석 - 산점도 행렬을 그려 여러 변수를 조합한 산점도와 상관계수를 한 화면에서 확인
2. 다차원 척도법 - 객체 사이의유사성을 유지, 2차원 또는 3차원 공각으로 시각화 하는 방법
3. 주성분 분석 - 데이터의 분포를 잘 설명함과 동시에 정보의 손실은 최소화 하도록 고차원의 데이터를 저차원의 데이터로 변환하는 차원축소 기법
4. 선형판별분석 - 어떤그룹에 속할지를 판별하는 분석기법이고 다변량 데이터에 판별 함수를 적용해 데이터의 클래스 분리를 최적으로 수행할수 있게 데이터 축소
* 비정형 데이터 (Unstructured Data)
-구조화 되지 않은 데이터 (이미지/영상/텍스트)
* 비정형 데이터의 유형 및 탐색방법
- 비정형 데이터
- 텍스트: 정형 데이터로 변환 → 단어 빈도, 파싱(Parsing) 후 탐색
- 이미지: 픽셀마다 수치화 → CNN 등의 딥러닝 기법 , 응용소프트웨어 활용하여 탐색
- 반정형 데이터: XML/JSON/HTML, 각 파서를 이용하여 파싱 후 탐색
* 비정형 데이터 탐색 플랫폼 구성요소
- HDFS : 마스터/슬레이브구조를가지는 분산형파일시스템
- 맵리듀스: 맵 합수에서 데이터를 처리하고, 리듀스 함수에서 원하는 결과를 계산하는 데이터 탐색 엔진
- 주키퍼:분산환경에서 노드간의정보를 공유하고 락, 이벤트 등 보조기능을 제공하는프레임워크
- Avro : 이기종간 데이터 타입을 교환할수 있는 체계를 제공하는 기술
- Hive: SQL 과 유사한 구조로 데이터를 요약하고 쿼리를 수행하여 분석할 수있는 데이터 웨어하우징 솔루션
- Pig: 대규모 데이터에 대한 분석을 위한 쿼리 인터페이스
- HCatalog : 하둡 데이터용 테이블 및 스토리지 관리 서비스
* 텍스트 마이닝
- 다양한 문서 자료내 비정형 텍스트 데이터에 자연어 처리기술 및 문서 처리 기술을 활용해 인사이트를 도출하는 기술
- 코퍼스 : 분석 작업의대상이 되는 대량의 텍스트 문서들을 모아놓은 집합
- 토큰화 : 구조화 되어있지 않은 문서를 단어로 나누는 과정
- 불용어 : 코퍼스에서 자주등장 하지만, 분석 프로세스에 있어 기여하는 바가 없는단어
- 어간 추출 : 단어내 접사를 제거하고 단어에서 의미를 담고 있는 어간을 분리 하는 것
* 토픽 모델링
- 대량의 문서집합에 존재하는 추상적인 토픽을 추출하는 통계적 모델링 방법
* Bag of Word
- 단어의 순서는 무시하고 빈도만 고려하는 것을 말한다.