빅데이터분석 필기[2과목] 빅데이터 탐색 3.통계기법의 이해
3.통계기법의 이해
* 기술통계
- 데이터 분석을 목적으로 수집된 데이터를 확률 통계적으로 정리·요약하는 기초적인 통계
- 기술통계 목적: 분석 초기 단계에 데이터 분포의 특징을 파악하고자 함
- 기술통계 방법
- 통계적 수치 계산: 평균 / 분산 / 표준편차
- 그래프 활용: 막대 그래프 / 파이 그래프
- 데이터에 대한 전반적인 이해를 도움
* 중심경향 통계량
- 평균(Mean): (자료를 모두 더한 값) / (자료 개수)
- 모든자료에 같은 가중치를 부여/ 이상값에 민감
- 모평균: 조사하는 모집단의 평균
- 표본평균: 모집단의 일부분인 표본(Sample)의 평균
- 중위수(Median): 오름차순 정렬 → 중앙에 위치한 데이터 값
- 특이값 , 이상값에 영향을 받지 않음
-최빈값(Mode): 데이터 값중에 빈도수가 가장 높은 데이터값
* 산포도 통계량
- 범위(Range): 최댓값(Max) - 최솟값(Min)
- 분산(Variance): 평균으로부터 흩어진 정도
- 모분산: {(각 데이터값과 평균과의 편차) 제곱의 합} / n
- 표본분산: {(각 데이터값과 평균과의 편차) 제곱의 합} / (n-1)
- 제곱의 합을 하는 이유: 양 편차와 음의 편차를 그대로 합하면 0이 되버린다
- 분산을 통해 변화의 폭을 쉽게파악, 단 편차의 제곱이 기 때문에 실제 측정치 보다 큰값으로 표현됨.
- 표준편차(SD; Standard Deviation): 분산의 양의 제곱근
- 분산과 마찬가지로 표본/모집단의 표준편차
- 관측치와 동일한 단위로 변화 파악하여 분산의 단점을 보완
- 평균의 표준오차 (표준오차) (SEM; Standard Error of Mean, SE; Standard Error): 표본평균의 표본추출분포에대한 표준편차
- 표본의 각 평균들이 전체평균으로부터 평균적으로 얼마나 떨어져 있는가
- 모집단에서 수많은 표본추출 → 표본들마다 평균 계산 → 각 평균들에 대한 전체 평균 계산
* 분포(Distribution)통계량
- 분포의 형태 - 첨도(Kurtosis): 분포의 뾰족한 정도를 설명하는 통계량
- 정규분포의 첨도는 3, 정규분포의 첨도를 0으로 만들기위해 일반적으로 3을 빼서 정의하는 경우도 많음
- 첨도 = 0: 표준정규분포
- 첨도 > 0: 뾰족(첨용)
- 첨도 < 0: 납작(평용)
- 분포의 대칭성 - 왜도(Skewness): 분포의 기울어진 정도 / 비대칭성을 나타내는 통계량
- 왜도 = 0: 좌우대칭
- 왜도 > 0: 오른쪽으로 긴 꼬리
- 왜도 < 0: 왼쪽으로 긴 꼬리
* 표본 추출
* 자료 측정
- 대상의 특정한 속성을 숫자 or 기호로 표시
- 척도(scale) - 관계를 부여하기위해 사용되는 규칙
- 자료의 형태에따라 질적, 양적 분류
-자료측정 방법 - 실험,조사,직접적관측
속성 | 질적자료 | 양적 자료 | ||
척도 | 명목척도 | 순서척도 | 구간척도 | 비율척도 |
설명 | 분류목적 | 대소관계 특정대상의 서열관계 관측시사용 |
구간사이의 간격이 의미 =등간척도 속성의양을 측정 |
구간척도 + 비율 의미있음 절대적기준인 0 이존재 사칙연산가능 |
등호연산(=,≠) | 비교연산(>,<) | 가감연산(+,-) | 승제연산(÷,×) | |
예시 | 이메일주소,옷색깔,성별,계정 | 직급,영화평점,선호도 | 온도,지능자수 | 질량,나이,개수,길이 |
* 표본추출 방법
-관심의 대상이 되는 전체 모수에서 일부의 부분집단을 선택하는 방법
-부분집단을 분석하여 전체 집단을 추정
- 확률표본 추출방법 과 비확률 표본추출방법
* 확률표본추출방법 종류
단순 무작위 추출 | 계통 추출=체제표본추출 | 층화 추출 | 군집 추출 |
정해진규칙 없이 표본추출,사전적 지식 없을때 적용, 균등한 확률로 추출 | 시간, 순서, 공간의 동일한 구간을 정해 무작위 추출 일정한 간격으로 추출 | 여러 계층별로 무작위 추출 계층: 내부동질/ 외부이질 |
일부 군집의 전체/일부를 추출 군집: 성질 고려하지 않음! |
무작위로 10개의 번호표 추출 | (ex) 번호 끝자리 5로 끝나는 사람 선정 | (ex) 지역별/도별로 무작위 100명 선정 | (ex) 검정/노랑/파랑 공 100개→파랑 추출 |
* 확률분포(Probability Distribution)
- 확률: 어떤일이 일어날 가능성의 측도(0,1 사이의 값을 갖는다)
- 확률분포: 확률변수가 특정한 값을 가질 확률을 나타내는 분포
- 확률변수: 확률적인 과정에 따라 값이 결정되는 변수, 활률적 결과를 수치로 표현한 값
- 확률분포함수 : 확률 변수를 일직선상의 공간에 표현한함수 (확률질량 함수, 활률 밀도함수)
- 확률 질량 함수 - 셀수있는 수의 사건이 존재하는 경우 , 각 단순사건에 대한 확률만 정의하는 함수를 의미 , 이산확률 변수의 확률 분포를 나타내는 함수
- 확률 밀도 함수 - 임의의 지점에서 밀도를 함수 f(x) 로 표시하고 확률 밀도 함수라고함, 히스토 그램에서 보면 해당 구간의 면적이 그 확률 값이라고 할수 있음
* 확률분포의 종류
* 확률변수의 종류에 따라 이산확률분포(Discrete Probability Distribution)와 연속 활률 분포로 나눔
이산확률분포 | 하나씩 셀 수 있는 값 | 연속확률분포 | 실수와 같은 연속적인 값 |
포아송 분포 | 주어진 시간동안 사건 발생횟수 단위시간당 또는 면적당 사건의 평균횟수가 몇번인지를 확률 변수 x로 정의한 경우 |
정규분포 | 모수의 평균과 표준편차에의해 모양결정 종모양 분포 가우스 분포라고도 표현 평균값을 중앙으로하여 좌우대칭 |
베르누이 분포 | 1번 시행 → 성공/실패 | 표준정규분포 | Z(0,1) ⇒ X를 Z로 정규화 |
이항 분포 | n번 시행 → k번 성공확률 n번시행 / 각시행활률 = p |
T-분포 | 모집단이 정규분포임 정규분포라는 건 알고 모표준편차는 모를때, 자유도에따라 모양이 변하고 0을 중심으로 좌우 대칭 |
기하분포 | 카이제곱분포 | 서로 독립적인 K개의 표준정규 확률변수 각각 제곱해서 합함 |
|
음이항분포 | 성공확률이 p인 베르누이시행을 독립적으로 반복시행할때 k 번 성공하기 까지의 시행 횟수 x의 확률 분포 |
F-분포 | 독립적인 카이제곱분포에서 두 확률변수의 비 |
다항분포 |
* 표본 분포(Sampling Distribution)
- 모집단에서 추출한 크기가 n개로 일정한 표본이 가지는 추정량의 확률분포
- 표본의 특성을 보여주는 통계량(Statistics)에 의해 모집단의 특성을 보여주는 모수(Parameter)를 추론한다
* 표본 분포 용어
- 모집단(Population): 분석 대상 집단 전체
- 모수(Parameter): 모집단의 특성을 나타내느 대푯값
- 통계량(Statistics): 표본에서 얻은 평균, 표준오차와 같은 값 , 통계량을 통해 모수를 추정함(확률변수)
- 추정량(Estimator): 모수 추정을 위해 구한 통계량
- 표준편차(Standard Deviation): 자료의 변동 정도
- 표준오차(Standard Error): 통계량의 변동 정도
*표본 조사 용어
- 표본(Sample): 모집단의 특성을 추정하기 위해, 조사하는 모집단의 일부분
- 표본 조사: 모집단 일부분을 조사하는 행위
- 표본오차(Sampling Error): 모집단을 대표할 수 있는 것들이 추출되지 못해서 발생하는 오차
- 비표본오차(Sampling Bias): 표본추출 방법에서 생기는 오차(모수를 작게 or 크게 추정),부주의, 실수 등
- 확률화(Randomization): 모집단으로부터 편의되지 않은 표본을 추출하는 절차 , 확률화 절차로 추출한 확률표본으로, 표본편의를 최소화할 수 있음
*표본 분포와 관련된 법칙
* 큰 수의 법칙(Law Large Number)
- 표본 개수 n이 커질수록 → 표본평균 분산이 0에 가까워짐 → 즉, 데이터 퍼짐이 적어짐
- 표본평균과 모 평균이 비슷해짐
* 중심 극한 정리(Central Limit Theorem)
- 표본 개수 n이 커질수록 → 모집단 분포와 상관없이, 표본분포가 정규분포에 근사
* 점 추정(Point Estimation)
- 표본의 정보로 부터 모집단의 모수를 하나의 값으로 추정하는 기법
- 점 추정 조건: 불편성 / 효율성 / 일치성 / 충족성
- 불편성(Unbiasedness): 모든 표본의 추정량들의 기댓값 = 모수
- 효율성(Efficiency): 추정량의 분산이 작을수록 좋음
- 일치성(Consistency): 표본 크기 아주 커짐 → 추정량 ≈ 모수
- 충족성(Sufficient): 추정량은 모수에 대한 모든 정보를 제공
- 점 추정에 사용되는 통계
- 표본평균(Sample Mean): 모평균의 추정량 / 확률표본의 평균값
- 표본분산(Sample Variance): 모분산의 추정량
* 구간 추정
- 추정값에 대한 신뢰도를 제시하면서, 범위로 모수를 추정하는 방법
- 구간 추정 용어: 신뢰수준 / 신뢰구간
- 신뢰 수준(Confidence Level)
- 구간에 모수가 포함될 확률
- 어떠한 값이 알맞은 추정값이라고 믿을 수 있는 정도
- α = 오차수준, 유의수준
- 신뢰수준 = 1-α
- 신뢰 구간(Confidence Interval)
- 신뢰수준 기준으로 추정
- 통계적으로 유의미한 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법
*가설(Hypothesis)
- 귀무가설 (H₀): 기존과 차이 없음/ 현재까지와 변화 없음
- 대립가설 (H₁): 입증하고자 하는 가설/ 기존과 다른 내용
- 표본을 통해 확실한 근거를 가지고 입증하고자 함(=연구가설)
* 가설검정(Statistical Hypothesis Test)
- 대립가설을 채택할수 있는지 평가하는 과정
- 모집단에 대한 통계적 가설(대립가설)수립 -> 표본추출 -> 통계적 가설의 진위를 판단
- 가설 검정절차 - 가설설정 -> 유의수준설정-> 검정방법설정 -> p-value 산출-> 유의수준과 p-value 비교
- p-value = 유의확률: H₀이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률
- 귀무가설이 참이라는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나, 더 극단적인 통계치가 관측될 확률
- p-value < α : H₀ 귀무가설 기각, H₁ 대립가설채택
- p-value > α : H₀ 귀무가설채택 (기각할 수 없다)
- 가설검정 방법: 양측검정 / 단측검정
- 양측검정: 모수가 특정값과 통계적으로 같은지 여부
- H₀ : θ = θ₀
- 단측검정: 모수가 특정값보다 통계적으로 큰지/작은지 여부
- H₀ : θ ≥ θ₀
- H₀ : θ ≤ θ₀
- 양측검정: 모수가 특정값과 통계적으로 같은지 여부
* 가설검정의 오류
- 가설검정 오류 - 가설을 검정할 때 모집단이 아닌, 추출된 표본을 기반으로 모집단에 대한 결론을 내리므로 통계적인 오류 발생 가능성이 항상 존재한다
- 제 1종 오류(α = 유의수준): 귀무가설이 참인데, 기각하게 되는 오류 (H₀ T → F)
- 제 2종 오류(β = 베타수준): 귀무가설이 거짓인데, 채택하게 되는 오류 (H₀ F → T)
- 기각역: 대립가설이 맞을 때 그것을 받아들이 는 확률
* 검정 통계량
- 가설 검정의 대상이 되는 모수를 추론하기위해 사용하는 표본통계량
* p-value 유의 확률
- 제 1종 오류를 범할 확률 (검정 통계량에 근거하여, 귀무가설이 참인데 기각하게 될 확률)
- 귀무가설이 참이라는 가정 할때, 표본 이상으로 극단적인 결과를 얻을 확률
- 귀무가설을 지지하는 방향으로 검정통계량이 나올 확률
- 제 1종 오류에서 연구자가 내린 판정이 잘못되었을 실제 확률
- 귀무가설이 참이라는 가정 할때 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률값
- 귀무가설이 참이라는 가정 할 때 연구자가 얻은 검정통계량보다 크거나 같은 값을 얻을 수 있을 확률