728x90 반응형 데이터전처리2 빅데이터분석 필기[2과목] 빅데이터 탐색 3.통계기법의 이해 3.통계기법의 이해 * 기술통계 - 데이터 분석을 목적으로 수집된 데이터를 확률 통계적으로 정리·요약하는 기초적인 통계 기술통계 목적: 분석 초기 단계에 데이터 분포의 특징을 파악하고자 함 기술통계 방법 통계적 수치 계산: 평균 / 분산 / 표준편차 그래프 활용: 막대 그래프 / 파이 그래프 데이터에 대한 전반적인 이해를 도움 * 중심경향 통계량 - 평균(Mean): (자료를 모두 더한 값) / (자료 개수) 모든자료에 같은 가중치를 부여/ 이상값에 민감 모평균: 조사하는 모집단의 평균 표본평균: 모집단의 일부분인 표본(Sample)의 평균 - 중위수(Median): 오름차순 정렬 → 중앙에 위치한 데이터 값 특이값 , 이상값에 영향을 받지 않음 -최빈값(Mode): 데이터 값중에 빈도수가 가장 높은 데.. 2023. 3. 20. 머신러닝 데이터 전처리(Preprocessing) 데이터전처리 1) 결손값 처리 (Null/ NaN 처리) 1.데이터가 충분한 경우 - 값이 누락된 데이터를 제거함 2. 데이터가 제한적일 경우 - 누락된 값을 추정해서 채움 2)데이터 인코딩(레이블, 원-핫 인코딩) 머신러닝알고리즘은 문자열 데이터 속성을 입력값으로 받지않기 때문에 문자형이 아닌 숫자형으로 표현 되어야한다. 레이블인코딩 - 남, 여 → 1, 0 , 숫자값이기 때문에 의도하지 않아도 1이 더크다는 의미로 영향을 받는 알고리즘이 있을수있다. 따라서 회귀에는 적용하지말고 tree 계열 ML 알고리즘은 적용가능 , 이러한 문제점을 해결하기위해 나온것이 원핫 인코딩이다. 사이킷런의 LabelEncoder 클래스 , fit() 과 transform() 을 이용하여 변환 원핫(One-hot) 인코딩 .. 2022. 5. 6. 이전 1 다음 728x90 반응형