IT/빅데이터분석

빅데이터분석 필기[2과목] 빅데이터 탐색 3.통계기법의 이해

unicorn 2023. 3. 20. 11:08
728x90
반응형

3.통계기법의 이해

* 기술통계

- 데이터 분석을 목적으로 수집된 데이터를 확률 통계적으로 정리·요약하는 기초적인 통계

  • 기술통계 목적: 분석 초기 단계에 데이터 분포의 특징을 파악하고자 함
  • 기술통계 방법
    • 통계적 수치 계산: 평균 / 분산 / 표준편차
    • 그래프 활용: 막대 그래프 / 파이 그래프
    • 데이터에 대한 전반적인 이해를 도움

* 중심경향 통계량

- 평균(Mean): (자료를 모두 더한 값) / (자료 개수)

  • 모든자료에 같은 가중치를 부여/ 이상값에 민감
  • 모평균: 조사하는 모집단의 평균
  • 표본평균: 모집단의 일부분인 표본(Sample)의 평균

- 중위수(Median): 오름차순 정렬 → 중앙에 위치한 데이터 값

  • 특이값 , 이상값에 영향을 받지 않음

-최빈값(Mode): 데이터 값중에 빈도수가 가장 높은 데이터값

 

* 산포도 통계량

- 범위(Range): 최댓값(Max) - 최솟값(Min)

- 분산(Variance): 평균으로부터 흩어진 정도

  • 모분산: {(각 데이터값과 평균과의 편차) 제곱의 합} / n
  • 표본분산: {(각 데이터값과 평균과의 편차) 제곱의 합} / (n-1)
  • 제곱의 합을 하는 이유: 양 편차와 음의 편차를 그대로 합하면 0이 되버린다
  • 분산을 통해 변화의 폭을 쉽게파악, 단 편차의 제곱이 기 때문에 실제 측정치 보다 큰값으로 표현됨. 

- 표준편차(SD; Standard Deviation): 분산의 양의 제곱근

  • 분산과 마찬가지로 표본/모집단의 표준편차
  • 관측치와 동일한 단위로 변화 파악하여 분산의 단점을 보완 

- 평균의 표준오차 (표준오차) (SEM; Standard Error of Mean, SE; Standard Error): 표본평균의 표본추출분포에대한 표준편차

  • 표본의 각 평균들이 전체평균으로부터 평균적으로 얼마나 떨어져 있는가
  • 모집단에서 수많은 표본추출 → 표본들마다 평균 계산 → 각 평균들에 대한 전체 평균 계산

* 분포(Distribution)통계량

  • 분포의 형태 - 첨도(Kurtosis): 분포의 뾰족한 정도를 설명하는 통계량
    • 정규분포의 첨도는 3, 정규분포의 첨도를 0으로 만들기위해 일반적으로 3을 빼서 정의하는 경우도 많음 
    • 첨도 = 0: 표준정규분포
    • 첨도 > 0: 뾰족(첨용)
    • 첨도 < 0: 납작(평용)
  • 분포의 대칭성 - 왜도(Skewness): 분포의 기울어진 정도 / 비대칭성을 나타내는 통계량
    • 왜도 = 0: 좌우대칭
    • 왜도 > 0: 오른쪽으로 긴 꼬리
    • 왜도 < 0: 왼쪽으로 긴 꼬리

* 표본 추출

- 모집단에서 모집단에 포함되는 일부를 표본으로 추출하는 것을 의미 
- 전체 대상의 특성을 대표할수 있는지의 여부, 대표성이 중요 
 
 

* 자료 측정

대상의 특정한 속성을 숫자 or 기호로 표시

- 척도(scale) - 관계를 부여하기위해 사용되는 규칙

- 자료의 형태에따라 질적, 양적 분류

-자료측정 방법 - 실험,조사,직접적관측

속성 질적자료 양적 자료
척도 명목척도 순서척도 구간척도 비율척도
설명 분류목적 대소관계
특정대상의 서열관계
관측시사용
구간사이의 간격이 의미
=등간척도
속성의양을 측정
구간척도 + 비율 의미있음
절대적기준인 0 이존재
사칙연산가능
  등호연산(=,≠) 비교연산(>,<) 가감연산(+,-) 승제연산(÷,×)
예시 이메일주소,옷색깔,성별,계정 직급,영화평점,선호도 온도,지능자수 질량,나이,개수,길이

* 표본추출 방법 

-관심의 대상이 되는 전체 모수에서 일부의 부분집단을 선택하는 방법

-부분집단을 분석하여 전체 집단을 추정

- 확률표본 추출방법 과 비확률 표본추출방법 

 

* 확률표본추출방법 종류 

단순 무작위 추출  계통 추출=체제표본추출 층화 추출 군집 추출
정해진규칙 없이 표본추출,사전적 지식 없을때 적용, 균등한 확률로 추출  시간, 순서, 공간의 동일한 구간을 정해 무작위 추출 일정한 간격으로 추출 여러 계층별로 무작위 추출
계층: 내부동질/ 외부이질
일부 군집의 전체/일부를 추출
군집: 성질 고려하지 않음!
무작위로 10개의 번호표 추출 (ex) 번호 끝자리 5로 끝나는 사람 선정 (ex) 지역별/도별로 무작위 100명 선정 (ex) 검정/노랑/파랑 공 100개→파랑 추출 
* 모수 : 관심을 갖고있는 모집단의 대표값 
* 표집 : 표본을 선택하는 과정

 

 

* 확률분포(Probability Distribution)

 -  확률: 어떤일이 일어날 가능성의 측도(0,1 사이의 값을 갖는다)

 - 확률분포: 확률변수가 특정한 값을 가질 확률을 나타내는 분포

-  확률변수: 확률적인 과정에 따라 값이 결정되는 변수, 활률적 결과를 수치로 표현한 값

- 확률분포함수 : 확률 변수를 일직선상의 공간에 표현한함수 (확률질량 함수, 활률 밀도함수)

    - 확률 질량 함수 - 셀수있는 수의 사건이 존재하는 경우 , 각 단순사건에 대한 확률만 정의하는 함수를 의미 , 이산확률 변수의 확률 분포를 나타내는 함수 

    - 확률 밀도 함수 - 임의의 지점에서 밀도를 함수 f(x) 로 표시하고 확률 밀도 함수라고함, 히스토 그램에서 보면 해당 구간의 면적이 그 확률 값이라고 할수 있음 

 

 

* 확률분포의 종류

* 확률변수의 종류에 따라 이산확률분포(Discrete Probability Distribution)와 연속 활률 분포로 나눔 

 

이산확률분포 하나씩 셀 수 있는 값 연속확률분포 실수와 같은 연속적인 값
포아송 분포 주어진 시간동안 사건 발생횟수
단위시간당 또는 면적당 사건의
평균횟수가 몇번인지를 확률 변수 x로 정의한 경우
정규분포 모수의 평균과 표준편차에의해 모양결정
종모양 분포 
가우스 분포라고도 표현 
평균값을 중앙으로하여 좌우대칭
베르누이 분포 1번 시행 → 성공/실패 표준정규분포 Z(0,1) ⇒ X를 Z로 정규화
이항 분포 n번 시행 → k번 성공확률
n번시행 / 각시행활률  = p
T-분포 모집단이 정규분포임
정규분포라는 건 알고
모표준편차는 모를때,
자유도에따라 모양이 변하고
0을 중심으로 좌우 대칭 
기하분포   카이제곱분포 서로 독립적인 K개의
표준정규 확률변수
각각 제곱해서 합함
음이항분포 성공확률이 p인 베르누이시행을
독립적으로 반복시행할때
k 번 성공하기 까지의 시행 횟수 x의 확률 분포
F-분포 독립적인
카이제곱분포에서
두 확률변수의 비
다항분포      

 


* 표본 분포(Sampling Distribution)

 - 모집단에서 추출한 크기가 n개로 일정한 표본이 가지는 추정량의 확률분포

 - 표본의 특성을 보여주는 통계량(Statistics)에 의해 모집단의 특성을 보여주는 모수(Parameter)를 추론한다


* 표본 분포 용어

 - 모집단(Population): 분석 대상 집단 전체

 - 모수(Parameter): 모집단의 특성을 나타내느 대푯값

 - 통계량(Statistics): 표본에서 얻은 평균, 표준오차와 같은 값 , 통계량을 통해 모수를 추정함(확률변수)

 - 추정량(Estimator): 모수 추정을 위해 구한 통계량

 - 표준편차(Standard Deviation): 자료의 변동 정도

 - 표준오차(Standard Error): 통계량의 변동 정도

 

*표본 조사 용어

 - 표본(Sample): 모집단의 특성을 추정하기 위해, 조사하는 모집단의 일부분

 - 표본 조사: 모집단 일부분을 조사하는 행위

 - 표본오차(Sampling Error): 모집단을 대표할 수 있는 것들이 추출되지 못해서 발생하는 오차

 - 비표본오차(Sampling Bias): 표본추출 방법에서 생기는 오차(모수를 작게 or 크게 추정),부주의, 실수 등

 - 확률화(Randomization): 모집단으로부터 편의되지 않은 표본을 추출하는 절차 , 확률화 절차로 추출한 확률표본으로, 표본편의를 최소화할 수 있음


*표본 분포와 관련된 법칙

* 큰 수의 법칙(Law Large Number)

 - 표본 개수 n이 커질수록 → 표본평균 분산이 0에 가까워짐 → 즉, 데이터 퍼짐이 적어짐

 - 표본평균과 모 평균이 비슷해짐

* 중심 극한 정리(Central Limit Theorem)

 - 표본 개수 n이 커질수록 → 모집단 분포와 상관없이, 표본분포가 정규분포에 근사

 

* 점 추정(Point Estimation)

- 표본의 정보로 부터 모집단의 모수를 하나의 값으로 추정하는 기법

- 점 추정 조건: 불편성 / 효율성 / 일치성 / 충족성

  • 불편성(Unbiasedness): 모든 표본의 추정량들의 기댓값 = 모수
  • 효율성(Efficiency): 추정량의 분산이 작을수록 좋음
  • 일치성(Consistency): 표본 크기 아주 커짐 → 추정량 ≈ 모수
  • 충족성(Sufficient): 추정량은 모수에 대한 모든 정보를 제공


- 점 추정에 사용되는 통계

  • 표본평균(Sample Mean): 모평균의 추정량 / 확률표본의 평균값
  • 표본분산(Sample Variance): 모분산의 추정량

* 구간 추정

 - 추정값에 대한 신뢰도를 제시하면서, 범위로 모수를 추정하는 방법

 - 구간 추정 용어: 신뢰수준 / 신뢰구간

  • 신뢰 수준(Confidence Level)
    • 구간에 모수가 포함될 확률
    • 어떠한 값이 알맞은 추정값이라고 믿을 수 있는 정도
    • α = 오차수준, 유의수준
    • 신뢰수준 = 1-α 
  • 신뢰 구간(Confidence Interval)
    • 신뢰수준 기준으로 추정
    • 통계적으로 유의미한 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법

*가설(Hypothesis)

  • 귀무가설 (H₀): 기존과 차이 없음/ 현재까지와 변화 없음
  • 대립가설 (H₁): 입증하고자 하는 가설/ 기존과 다른 내용
    • 표본을 통해 확실한 근거를 가지고 입증하고자 함(=연구가설)


* 가설검정(Statistical Hypothesis Test)

  • 대립가설을 채택할수 있는지 평가하는 과정
  • 모집단에 대한 통계적 가설(대립가설)수립 -> 표본추출 -> 통계적 가설의 진위를 판단
  • 가설 검정절차 - 가설설정 -> 유의수준설정-> 검정방법설정 -> p-value 산출-> 유의수준과 p-value 비교 
  • p-value = 유의확률: H₀이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률
    • 귀무가설이 참이라는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나, 더 극단적인 통계치가 관측될 확률
    • p-value < α : H₀ 귀무가설 기각, H₁ 대립가설채택
    • p-value > α : H₀  귀무가설채택 (기각할 수 없다)
  • 가설검정 방법: 양측검정 / 단측검정
    • 양측검정: 모수가 특정값과 통계적으로 같은지 여부
      • H₀ : θ = θ₀
    • 단측검정: 모수가 특정값보다 통계적으로 큰지/작은지 여부
      • H₀ : θ ≥ θ₀
      • H₀ : θ ≤ θ₀


* 가설검정의 오류

 - 가설검정 오류 - 가설을 검정할 때 모집단이 아닌, 추출된 표본을 기반으로 모집단에 대한 결론을 내리므로  통계적인 오류 발생 가능성이 항상 존재한다

- 제 1종 오류(α = 유의수준): 귀무가설이 참인데, 기각하게 되는 오류 (H₀ T → F)

- 제 2종 오류(β = 베타수준): 귀무가설이 거짓인데, 채택하게 되는 오류 (H₀ F → T)

  • 기각역: 대립가설이 맞을 때 그것을 받아들이 는 확률


* 검정 통계량

- 가설 검정의 대상이 되는 모수를 추론하기위해 사용하는 표본통계량 


* p-value 유의 확률

  • 제 1종 오류를 범할 확률 (검정 통계량에 근거하여, 귀무가설이 참인데 기각하게 될 확률)
  • 귀무가설이 참이라는 가정 할때, 표본 이상으로 극단적인 결과를 얻을 확률
  • 귀무가설을 지지하는 방향으로 검정통계량이 나올 확률
  • 제 1종 오류에서 연구자가 내린 판정이 잘못되었을 실제 확률
  • 귀무가설이 참이라는 가정 할때 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률값
  • 귀무가설이 참이라는 가정 할 때 연구자가 얻은 검정통계량보다 크거나 같은 값을 얻을 수 있을 확률

 

728x90
반응형