빅데이터분석 필기[2과목]빅데이터 탐색 2.데이터 탐색
1. 데이터 탐색 * 탐색적 자료분석(EDA) - EDA - 데이터를 이해하고 의미있는 관계를 찾아내기 위해 데이터의 통곗 값과 분포등을 시각화 하고 분석하는 것 - 데이터 탐색 도구 - 도표, 그래프, 요약통계 - 특징 1. 저항성 (Resistance) - 이상값에 영향 적게 받음 , 부분변동에 민감하지 않고, 평균보다 저항성이 큰 중위수를 대푯값으로 선호 2. 잔차 해석(Residuals) - 주 경향으로부터 벗어난 정도 , 보통과 다른 특징, 왜 존재하는지 탐색 3. 자료 재표현(Re-expression) -적당한 척도(로그변환, 제곱근변환, 역수 변환등)로 바꾸는 것 , 데이터 분석및 해석을 단순화 , 데이터 구조파악에 도움(분포의 대칭성, 선형성, 안정성등) 4. 시각화 (현시성)(Repres..
2023. 3. 16.
빅데이터분석 필기[2과목]빅데이터 탐색 1.데이터전처리
1. 데이터 전처리 * 데이터 전처리 - 데이터 전처리에는 데이터를 정제하는 과정과 분석 변수를 처리하는 과정, 반드시 거쳐야하는과정이고 반복적인 전처리 수행이 필요, 데이터 분석단계중 가장많은 시간이 소요됨 * 데이터 전처리 순서 데이터 정제 -> 결측값 처리 -> 이상값 처리 -> 분석 변수 처리 * 데이터 정제 - 분석전단계에 수행하며 결측값, 잡음 , 이상값 등을 제거하는 것을 말함 결측값(Missing Value): 누락된 값(입력 X, NA, NaN, NULL, inf, 999999) 처리 방법: 평균값, 중앙값, 최빈값 등의 중심 경향값 넣기, 분포 기반 처리 노이즈(Noise): 잘못 판단된 값(입력되지 않았는데, 입력되었다고 판단됨) 처리 방법: 일정 간격으로 이동하면서 평균값 대체, 일..
2023. 3. 16.