본문 바로가기
728x90
반응형

IT39

빅데이터분석 필기[2과목] 빅데이터 탐색 3.통계기법의 이해 3.통계기법의 이해 * 기술통계 - 데이터 분석을 목적으로 수집된 데이터를 확률 통계적으로 정리·요약하는 기초적인 통계 기술통계 목적: 분석 초기 단계에 데이터 분포의 특징을 파악하고자 함 기술통계 방법 통계적 수치 계산: 평균 / 분산 / 표준편차 그래프 활용: 막대 그래프 / 파이 그래프 데이터에 대한 전반적인 이해를 도움 * 중심경향 통계량 - 평균(Mean): (자료를 모두 더한 값) / (자료 개수) 모든자료에 같은 가중치를 부여/ 이상값에 민감 모평균: 조사하는 모집단의 평균 표본평균: 모집단의 일부분인 표본(Sample)의 평균 - 중위수(Median): 오름차순 정렬 → 중앙에 위치한 데이터 값 특이값 , 이상값에 영향을 받지 않음 -최빈값(Mode): 데이터 값중에 빈도수가 가장 높은 데.. 2023. 3. 20.
빅데이터분석 필기[2과목]빅데이터 탐색 2.데이터 탐색 1. 데이터 탐색 * 탐색적 자료분석(EDA) - EDA - 데이터를 이해하고 의미있는 관계를 찾아내기 위해 데이터의 통곗 값과 분포등을 시각화 하고 분석하는 것 - 데이터 탐색 도구 - 도표, 그래프, 요약통계 - 특징 1. 저항성 (Resistance) - 이상값에 영향 적게 받음 , 부분변동에 민감하지 않고, 평균보다 저항성이 큰 중위수를 대푯값으로 선호 2. 잔차 해석(Residuals) - 주 경향으로부터 벗어난 정도 , 보통과 다른 특징, 왜 존재하는지 탐색 3. 자료 재표현(Re-expression) -적당한 척도(로그변환, 제곱근변환, 역수 변환등)로 바꾸는 것 , 데이터 분석및 해석을 단순화 , 데이터 구조파악에 도움(분포의 대칭성, 선형성, 안정성등) 4. 시각화 (현시성)(Repres.. 2023. 3. 16.
빅데이터분석 필기[2과목]빅데이터 탐색 1.데이터전처리 1. 데이터 전처리 * 데이터 전처리 - 데이터 전처리에는 데이터를 정제하는 과정과 분석 변수를 처리하는 과정, 반드시 거쳐야하는과정이고 반복적인 전처리 수행이 필요, 데이터 분석단계중 가장많은 시간이 소요됨 * 데이터 전처리 순서 데이터 정제 -> 결측값 처리 -> 이상값 처리 -> 분석 변수 처리 * 데이터 정제 - 분석전단계에 수행하며 결측값, 잡음 , 이상값 등을 제거하는 것을 말함 결측값(Missing Value): 누락된 값(입력 X, NA, NaN, NULL, inf, 999999) 처리 방법: 평균값, 중앙값, 최빈값 등의 중심 경향값 넣기, 분포 기반 처리 노이즈(Noise): 잘못 판단된 값(입력되지 않았는데, 입력되었다고 판단됨) 처리 방법: 일정 간격으로 이동하면서 평균값 대체, 일.. 2023. 3. 16.
빅데이터분석필기[1과목] 빅데이터 분석 기획 - 3.데이터 수집 및 저장 계획 1.3 데이터수정및 저장계획 * 데이터구조적 분류 - 정형데이터, 비정형 데이터, 반정형 데이터 (실시간데이터는 존재형태로 분류) 1. 정형데이터 - 고정된 구조로 정해진 필드에 저장된 데이터를 의미 , 엑셀,csv, RDBMS 가 대표적 2. 비정형데이터(외부데이터) - 정해진 구조가 없는 데이터, 동영상, 소셜네트워크 댓글, 위치데이터등, 크기가 크고 복잡 3. 반정형데이터 - 데이터와 메타데이터, 스키마 등을 포함하는 데이터를 의미 , XML, HTML, JSON 이 대표적 * 데이터 수집방법 * 데이터 유형에 따른 수집방법 유형 정형 데이터 비정형 데이터 반정형 데이터 방법 -ETL: 추출, 변환, 적재 -FTP: 파일 송수신 프로토콜 -API: 실시간 데이터 수신 인터페이스 -DBToDB: 데이.. 2023. 3. 14.
728x90
반응형