빅데이터분석 필기[2과목]빅데이터 탐색 1.데이터전처리
1. 데이터 전처리 * 데이터 전처리 - 데이터 전처리에는 데이터를 정제하는 과정과 분석 변수를 처리하는 과정, 반드시 거쳐야하는과정이고 반복적인 전처리 수행이 필요, 데이터 분석단계중 가장많은 시간이 소요됨 * 데이터 전처리 순서 데이터 정제 -> 결측값 처리 -> 이상값 처리 -> 분석 변수 처리 * 데이터 정제 - 분석전단계에 수행하며 결측값, 잡음 , 이상값 등을 제거하는 것을 말함 결측값(Missing Value): 누락된 값(입력 X, NA, NaN, NULL, inf, 999999) 처리 방법: 평균값, 중앙값, 최빈값 등의 중심 경향값 넣기, 분포 기반 처리 노이즈(Noise): 잘못 판단된 값(입력되지 않았는데, 입력되었다고 판단됨) 처리 방법: 일정 간격으로 이동하면서 평균값 대체, 일..
2023. 3. 16.