728x90 반응형 preprocessing1 머신러닝 데이터 전처리(Preprocessing) 데이터전처리 1) 결손값 처리 (Null/ NaN 처리) 1.데이터가 충분한 경우 - 값이 누락된 데이터를 제거함 2. 데이터가 제한적일 경우 - 누락된 값을 추정해서 채움 2)데이터 인코딩(레이블, 원-핫 인코딩) 머신러닝알고리즘은 문자열 데이터 속성을 입력값으로 받지않기 때문에 문자형이 아닌 숫자형으로 표현 되어야한다. 레이블인코딩 - 남, 여 → 1, 0 , 숫자값이기 때문에 의도하지 않아도 1이 더크다는 의미로 영향을 받는 알고리즘이 있을수있다. 따라서 회귀에는 적용하지말고 tree 계열 ML 알고리즘은 적용가능 , 이러한 문제점을 해결하기위해 나온것이 원핫 인코딩이다. 사이킷런의 LabelEncoder 클래스 , fit() 과 transform() 을 이용하여 변환 원핫(One-hot) 인코딩 .. 2022. 5. 6. 이전 1 다음 728x90 반응형