본문 바로가기
728x90
반응형

빅데이터분석3

빅데이터분석 필기[2과목]빅데이터 탐색 2.데이터 탐색 1. 데이터 탐색 * 탐색적 자료분석(EDA) - EDA - 데이터를 이해하고 의미있는 관계를 찾아내기 위해 데이터의 통곗 값과 분포등을 시각화 하고 분석하는 것 - 데이터 탐색 도구 - 도표, 그래프, 요약통계 - 특징 1. 저항성 (Resistance) - 이상값에 영향 적게 받음 , 부분변동에 민감하지 않고, 평균보다 저항성이 큰 중위수를 대푯값으로 선호 2. 잔차 해석(Residuals) - 주 경향으로부터 벗어난 정도 , 보통과 다른 특징, 왜 존재하는지 탐색 3. 자료 재표현(Re-expression) -적당한 척도(로그변환, 제곱근변환, 역수 변환등)로 바꾸는 것 , 데이터 분석및 해석을 단순화 , 데이터 구조파악에 도움(분포의 대칭성, 선형성, 안정성등) 4. 시각화 (현시성)(Repres.. 2023. 3. 16.
빅데이터분석 필기[2과목]빅데이터 탐색 1.데이터전처리 1. 데이터 전처리 * 데이터 전처리 - 데이터 전처리에는 데이터를 정제하는 과정과 분석 변수를 처리하는 과정, 반드시 거쳐야하는과정이고 반복적인 전처리 수행이 필요, 데이터 분석단계중 가장많은 시간이 소요됨 * 데이터 전처리 순서 데이터 정제 -> 결측값 처리 -> 이상값 처리 -> 분석 변수 처리 * 데이터 정제 - 분석전단계에 수행하며 결측값, 잡음 , 이상값 등을 제거하는 것을 말함 결측값(Missing Value): 누락된 값(입력 X, NA, NaN, NULL, inf, 999999) 처리 방법: 평균값, 중앙값, 최빈값 등의 중심 경향값 넣기, 분포 기반 처리 노이즈(Noise): 잘못 판단된 값(입력되지 않았는데, 입력되었다고 판단됨) 처리 방법: 일정 간격으로 이동하면서 평균값 대체, 일.. 2023. 3. 16.
빅데이터분석필기[1과목 ]빅데이터 분석 기획 - 1.빅데이터 이해 1.1. 빅데이터 이해 * 데이터의 정의 - 데이터란 이론을 세우는데 기초가 되는 자료 혹은 컴퓨터가 처리 할수있는 문자, 소리, 숫자 그림 등의 형태로 되어 있는 자료를 뜻함. 만약 데이터가 의미를 담고 있으면 정보라고 부르고 의미를 담고 있지 않으면 자료로 본다. * 데이터의 유형 1. 정량적 데이터 (정형데이터) - 수치로 표현될수 있는 데이터 , ex> 영화평점, 시험성적, 2. 정성적 데이터 (비정형데이터) - 수치로 표현이 될수 없는 데이터 ex> 영화 감상평 3. 반정형 데이터 - 데이터 구조정보(메타데이터)를 함께 제공하는 형식 구조적 관점의 빅데이터 유형: 정형/ 반정형/ 비정형 정형 데이터 반정형 데이터 비정형 데이터 스키마구조 O 고정필드 O 스키마구조 O 메타데이터 O 고정필드 X .. 2023. 3. 13.
728x90
반응형