본문 바로가기
IT/빅데이터분석

빅데이터분석 필기[2과목]빅데이터 탐색 2.데이터 탐색

by unicorn 2023. 3. 16.
728x90
반응형

1. 데이터 탐색

* 탐색적 자료분석(EDA)

 - EDA -  데이터를 이해하고 의미있는 관계를 찾아내기 위해 데이터의 통곗 값과 분포등을 시각화 하고 분석하는 것

- 데이터 탐색 도구 - 도표, 그래프, 요약통계

- 특징

  1. 저항성 (Resistance) - 이상값에 영향 적게 받음 , 부분변동에 민감하지 않고, 평균보다 저항성이 큰 중위수를 대푯값으로 선호

  2. 잔차 해석(Residuals) - 주 경향으로부터 벗어난 정도 ,  보통과 다른 특징, 왜 존재하는지 탐색

  3. 자료 재표현(Re-expression) -적당한 척도(로그변환, 제곱근변환, 역수 변환등)로 바꾸는 것 ,  데이터 분석및 해석을 단순화 , 데이터 구조파악에 도움(분포의 대칭성, 선형성, 안정성등)

  4. 시각화 (현시성)(Representation) -분석결과를 쉽게 이해할 수 있도록 시각화 , 현시성 = 데이터 시각화, Display, Visualization

 

 

* 개별변수 데이터 탐색방법

범주형 (질적) 수치형 (양적)
- 명목척도&순위척도
- 분포특성을 중심성, 변동성 측면에서 파악
- 빈도수/ 최빈값/ 비율, 백분율 등
- 막대형 그래프활용
- 등간척도&비율척도
-분포특성을 중심성, 변동성, 정규성 측면에서 파악 

- 평균/ 분산/ 표준편차/첨도/왜도 등
- 박스플롯/히스토그램 활용

 

* 다차원 데이터 탐색 방법

범주형 - 범주형  수치형 - 수치형 범주형 - 수치형
-연관성을 분석
-빈도수, 비율활용
   -> 교차 빈도,비율 백분율분석
- 막대그래프
- 상관성&추세성 분석
- 피어슨 상관계수 : 방향 강도 파악
- 산점도/기울기
- 공분산 : 방향성파악
- 그룹별 수치형 변수의 기술 통계량을 비교
- 박스플롯

 

* 상관관계 분석

 - 2개 이상의 변수간 상호연관성의 존재여부&강도를 측정하는 분석방법

 

 

 - 변수 사이의 상관관계 종류

  • 양의 상관관계 (+): 한 변수↑ 다른 변수↑
  • 음의 상관관계 (-): 한 변수↑ 다른 변수↓
  • 상관관계 없음 (0): 무관하게 변화

 * 상관관계 표현방법 

 1.산점도 (Scatter Plot) - 가로축과 세로축의 좌표 평면상에서 각각의 관찰 점들을 표시하는 시각화 기법 

 2. 공분산 (Covariance): 2개 변수간 상관 정도 와 경향

  • 0보다 큰가 작은가
  • Cov > 0: 상승 경향
  • Cov < 0: 하강 경향
  • 단위에 따라 값의 크기가 달라짐 → 강도 나타낼 수 없음


3.상관계수 (Correlation Coefficient): 2개 변수간 방향성 과 강도

  • 범위: -1 ≤ r ≤ 1
  • 1에 가까울수록 강한 양의 상관관계 / -1에 가까울수록 강한 음의 상관관계

- 상관계수 해석

  - 상관 계수의 절대값이 1에 가까울수록 강한 상관이 존재한다고 해석 

 - 상관계수의 부호는 관계의 방향을 의미 

 

 

* 상관관계 분석의 종류

- 변수의 개수에따라 - 단순 상관분석 / 다중 상관분석

  • 단순 상관 분석: 2개 변수 사이의 상관성
  • 다중 상관 분석: 3개 이상 변수 사이의 상관성

- 변수의 속성에 따라 - 수치적 / 명목적 / 순서적 데이터

공분산
Covariance
피어슨 상관계수 카이제곱 검정 (교차분석) 스피어만 순위 상관계수
두 변수간 상관정도&경향 수치적 데이터 명목적 데이터 순서적 데이터
0보다 크면 상승/ 작으면 하강 범위: (-1, +1)
 ex) 키와 몸무게, 수입과 지출
ex) 지역, 종교, 성별 등 ex) 성적 순위, 만족도 등
관계만 파악 모수검정, 연속성 변수에 대한것
관계방향과 강도 파악
등간척도및 비율척도로 측정된 수쳥 변수관계측정
두변수의 분산이 동일하다는 전제

분류의 의미만 가지므로 상관계수 계산은 의미 없다. 

비모수 검정, 이산형 순서형 변수에 대한것
서열형 척도로 측정된 순서형 변수간 상관관계 
한변수를 단조 증가 함수로 변환하여 다른 변수로 나타낼수 있는 정도
두변수간 비선형적인 관계도 나타낼수 있음 

 

* 기초통계량

- 중심경향성: 평균/ 중위수/ 최빈값
- 산포도: 범위/ 분산/ 표준편차/ 변동계수/ 사분위수범위
- 분포: 왜도/ 첨도


  중심 경향성 산포도 (흩어진 정도) 분포
  평균
(mean)
변수총합 / 변수개수
이상값에 의한 변동 변화가심함
범위 최대값(Max) - 최솟값(Min) 왜도
좌/우 치우친 정도
-왼쪽 편포: 왜도 < 0 (Negative Skew)
왼쪽 꼬리가 긴 분포: Mean < Median < Mode
-오른쪽 편포: 왜도 > 0 (Positive Skew)
오른쪽 꼬리가 긴 분포: Mode < Median < Mean

-정규 분포: 왜도 = 0
평균 중심으로 대칭인 분포: Mode = Mean = Median
  중위수
(median)
크기순서로 오름차순 정렬 -> 중앙에 위치한 값
변수 홀수 개 : (n+1) /2 번째
변수 짝수 개: n/2 번째와 (n+2)/2 번째 평균
분산 평균으로부터 편차
* 편차들의 제곱 합
* 모분산은 N 으로, 표본 분산은 (n-1) 으로 나눔 
첨도 뾰족한 정도
  • 첨도 < 0: 납작
  • 첨도 > 0: 뾰족
  • 첨도 = 0: 정규분포
  최빈값
(mode)
가장 많이 관측됨 표준편차 분산의 양의제곱근    
      변동계수 CV 표준편차 / 평균(측정단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교하기 위함)
   
      사분위수 범위 IQR Q3-Q1(사분편차 : IQR의 절반값)    

 

* 시각적 데이터 탐색 


1. 히스토그램(Histogram)
 - 자료 분포 형태를 직사각형 형태로 시각화

  • 가로축: 수치형 데이터 구간
  • 세로축: 빈도수 
  • 막대: 붙어 있음 
  • 막대 넓이 일정 하다


2. 막대형 그래프(Barplot)
-  여러 항목들의 많고 적음을 비교하기 쉽도록 수량을 막대 길이로 표현하는 그래프

  • 가로축: 수치형 데이터 아니어도 됨
  • 막대: 떨어져 있음 
  • 막대넓이: 일정 하지 않을수도 있다.


3.박스 플롯(Boxplot)
- 집합의 범위/중앙값/이상값을 빠르게 확인할 수 있는 시각화 기법 

  • 박스 플롯 = 상자 그림 = 상자 수염 그림
  • Q1 = 제 1사분위 = 중앙값 기준으로 하위 50% 중에서 중앙값 = 전체 데이터 중 하위 25%에 해당하는 값
    Q2 = 제 2사분위 = 중위수 = 정 가운데 순위에 해당하는 값
    Q3 = 제 3사분위 = 중앙값 기준으로 상위 50% 중에서 중앙값 = 전제 데이터 중 상위 25%에 해당하는 값
  • 하위 경계 = Q₁ - 1.5 ⨉ IQR
  • 상위 경계 = Q₃ + 1.5 ⨉ IQR
  • 이상값 = 수염보다 바깥쪽에 있는 데이터


4.산점도(Scatter Plot)
- 가로축 , 세로축의 좌표평면 상에 각 관찰점을 표시하는 시각화 기법

  • 2개의 연속형 변수 간의 상관 관계를 볼 수 있음

5. 원그래프 

- 전체에 대한 각부분의 비율을 원모양으로 나타낸 그래프

 

6. 워드클라우드 - 단어로된 구름이미지 

 

* 시공간 데이터

공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치/형상이 변하는 데이터 

  • 이산적 변화: 수집 주기 일정 X → 시간 변화에 따라 데이터 추가됨
  • 연속적 변화: 수집 주기 일정 O → 함수로 연속적인 변화를 표현함
  • 시공간 데이터 타입
    • 포인트: 하나의 노드
    • 라인: 두개의 노드 + 하나의 세그먼트
    • 폴리곤: n개의 노드 + n개의 세그먼트
    • 폴리라인: n개의 노드 + n-1개의 세그먼트

 

* 시공간 데이터  탐색 절차

1. 주소를 행정구역으로 변환 - 엑셀또는 스프레드 시트의 문자열 처리 함수를 이용해 쉽게 변환 , 공백문자를 기준으로 분할가능 

split(문자열,구분자) find(찾는문자, 문자열) left(문자열, n) mid(문자열, 시작위치, n)
공백/쉼표 등으로 나눔 찾는문자의 문자열 반환 가장 왼쪽부터 문자열 n개 시작위치부터 문자열 n개

2. 주소를 좌표계로 변환 - 시공간 데이터의 주소를 이용하여 위도와 경도로 변환, 지오 코딩 서비스를 이용하여 좌표계로 변환 

 * 지오코딩서비스 - 위도 와 경도 데이터를 반환하는 서비스

3. 행정구역및 좌표계를 지도에 표시 - 시공간 데이터에 따라 행정구역 데이터를 지도에 표시 하거나 좌표계를 지도에 표시한다.

     - 지도에는 코로플레스지도, 카토그램 , 버블 플롯 맵이 있다

     - 코로플레스 지도 - 등치지역도

                                  - 데이터 값 크기에 따라 지정한 색상스케일로 영역 색칠 

                                  - 지역면젹과 실제 데이터값 크기가 다르다 

    - 카도그램  - 변량 비례도 

                      - 데이터값 크기에 따라 면적 왜곡

                      - 직관적으로 인지 가능 

참고 -https://starrykss.tistory.com/2029

    - 버블 플롯맵

                      - 위도, 경도 적용

                      - 좌표를 원으로

                      - 원크기, 색깔 반영

 

 

 * 공간 데이터 

- 객체의 위치및 공간관계정보와 관련

* 변량(Variance)

 - 조사대상의 특징/성질을 숫자 or 문자로 나타낸 값

 

* 변량 유형: 종속변수(Y) 수에 따라 → 일변량/이변량/다변량 데이터

  • 일변량: 각 단위에 대해 1개의 속성만 측정 - 탐색방법 :  박스플롯
  • 이변량: 각 단위에 대해 2개의 특성을 측정, 이변량도 다변량 데이터이다
  • 다변량: 각단위에 대해 2개 이상의 특성을 측정

* 다변량 데이터

- 데이터의 차원이 3차원이상일때 다변량이라고함. 


* 변량 데이터 탐색

  • 일변량 데이터 탐색 방법
    • 기술 통계량: 평균/분산/표준편차 등
    • 그래프 통계량: 히스토그램/상자그림 등
  • 이변량 데이터 탐색 방법: 동시 관측 → 변수간 관계 밝히기
  • 다변량 데이터 탐색 방법: 분석 전에 시각적으로 탐색 → 산점도 행렬, 별 그림, 등고선 그림 등


* 다변량 데이터 탐색 도구

  • 산점도 행렬: 두 변수간 산점도를 행렬로 → 변수간 연관성 표현
    • 그림 행렬: 변수 최대 20개 / 가능한 모든 조합
    • 개별 Y대 개별 X행렬: 각 xy조합의 그래프들
  • 별 그림
    • 점: 별모양의 점을 각 변수에 대응
    • 반경: 각 변숫값에 비례

* 다변량 데이터 분석 방법  - 분석이행이전에 시각적자료를 탐색 

 1. 상관분석 - 산점도 행렬을 그려 여러 변수를 조합한 산점도와 상관계수를 한 화면에서 확인

2. 다차원 척도법 - 객체 사이의유사성을 유지, 2차원 또는 3차원 공각으로 시각화 하는 방법

3. 주성분 분석 - 데이터의 분포를 잘 설명함과 동시에 정보의 손실은 최소화 하도록 고차원의 데이터를 저차원의 데이터로 변환하는 차원축소 기법

4. 선형판별분석 - 어떤그룹에 속할지를 판별하는 분석기법이고 다변량 데이터에 판별 함수를 적용해 데이터의 클래스 분리를 최적으로 수행할수 있게 데이터 축소 

 

* 비정형 데이터 (Unstructured Data)

 -구조화 되지 않은 데이터 (이미지/영상/텍스트)


*  비정형 데이터의 유형 및 탐색방법

  • 비정형 데이터
    • 텍스트: 정형 데이터로 변환 → 단어 빈도,  파싱(Parsing) 후 탐색
    • 이미지: 픽셀마다 수치화 → CNN 등의 딥러닝 기법 , 응용소프트웨어 활용하여 탐색
  • 반정형 데이터: XML/JSON/HTML, 각 파서를 이용하여 파싱 후 탐색


* 비정형 데이터 탐색 플랫폼 구성요소

- HDFS : 마스터/슬레이브구조를가지는 분산형파일시스템

- 맵리듀스: 맵 합수에서 데이터를 처리하고, 리듀스 함수에서 원하는 결과를  계산하는 데이터 탐색 엔진

- 주키퍼:분산환경에서 노드간의정보를 공유하고 락, 이벤트 등 보조기능을 제공하는프레임워크

-  Avro : 이기종간 데이터 타입을 교환할수 있는 체계를 제공하는 기술

- Hive: SQL 과 유사한 구조로 데이터를 요약하고 쿼리를 수행하여  분석할 수있는 데이터 웨어하우징 솔루션 

- Pig: 대규모 데이터에 대한 분석을 위한 쿼리 인터페이스

- HCatalog : 하둡 데이터용 테이블 및 스토리지 관리 서비스

 

* 텍스트 마이닝

- 다양한 문서 자료내 비정형 텍스트 데이터에 자연어 처리기술 및 문서 처리 기술을 활용해 인사이트를 도출하는 기술 

     - 코퍼스 : 분석 작업의대상이 되는 대량의 텍스트 문서들을 모아놓은 집합 

     - 토큰화 : 구조화 되어있지 않은 문서를 단어로 나누는 과정

     - 불용어 : 코퍼스에서 자주등장 하지만, 분석 프로세스에 있어 기여하는 바가 없는단어 

     - 어간 추출 : 단어내 접사를 제거하고 단어에서 의미를 담고 있는 어간을 분리 하는 것 

 

* 토픽 모델링 

 - 대량의 문서집합에 존재하는 추상적인 토픽을 추출하는 통계적 모델링 방법 

* Bag of Word 

 - 단어의 순서는 무시하고 빈도만 고려하는 것을 말한다. 

 

 

728x90
반응형

댓글