IT/머신러닝
머신러닝 용어 및 기본 예측 프로세스 (feat.사이킷런)
unicorn
2022. 4. 12. 08:48
728x90
반응형
1-1.용어정리
- 피쳐(Feature) , 속성 피처는 데이터세트의 일반속성, 타겟값을 제외한 나머지 속성을 모두 피처로 칭함
- 타겟(값),결정(값)(=레이블, 클래스) 지도학습시 데이터의 학습을 위해 주어지는 정답 데이터, 레이블, 클래스 ⇒ 지도 학습 중 분류의 경우 에는 이 결정 값을 레이블 또는 클래스로 칭함
- 지도학습 - 정답이 주어진 데이터(Prediction) 를 학습 한 뒤 미지의 정답을 예측하는 방식(회귀,분류)
- 학습데이터세트-학습을 위한 데이터 세트(속성과 결정값(레이블)이 모두 있어야한다.
- 테스트데이터세트- 예측 성능을 평가하기 위한 데이터 세트-- 회기 분석, 분류
1-2. 예측 프로세스
- 데이터 세트 분리 - 데이터를 학습 데이터와 테스트 데이터로 분리
- 모델 학습 - 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습 시킴
- 예측 수행 - 학습된 모델을 이용해 테스트 데이터의 분류를 예측
- 평가 - 예측된 결과 값과 테스트 데이터 실제 결과 값을 비교해 ML 모델 성능 평가
사이킷 런에서는 분류 알고리즘을 구현한 클래스로 Classifier, 회귀 알고리즘을 분류한 클래스로 Regressor 클래스를 제공, 이 둘을 합쳐서 Estimator 라고 부른다. 즉 지도학습에서 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator 라고 부른다. Estimator 클래스는 fit() 과 predict()을 내부에서 구현 하고 있다.
비지도 학습인 차원축소, 클러스터링, 피처 추출 등을 구현한클래스 는 fit()과 transform()을 적용 한다. 이때 fit() 은 학습을 의미하는것이아니고 입력데이터의 행태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업을 의미한다. 사전구조를 맞춘후 입력데이터의 차원변환, 클러스터링, 피처추출등의 실제작업을 transform() 으로 수행 , 사이킷런에서 이둘을 결합한 fit_transform() 을 제공 한다.
https://scikit-learn.org/stable/
728x90
반응형