본문 바로가기
728x90
반응형

분류 전체보기48

머신러닝 교차검증(feat.싸이킷런) 교차검증 교차검증을 하는 이유 - 과적합에 따른 성능저하 개선 과적합 이란? 모델이 학습데이터에만 과도하게 최적화 되어 실제 예측을 다른 데이터로 수행할경우 예측성능이 과도하게 떨어지는것, 고정된 학습/테스트 데이터로 평가를 하다보면 테스트 데이터에만 최적을 성능을 발휘하도록 평향된 모델을 유도 하는 경우가 생기고 결국 테스트 데이터에만 과적합 되는 학습 모델이 만들어져 다른 테스트 데이터가 들어오는 경우 성능이 저하 동일한 학습 데이터로 학습된 아래 3개의 모델을 비교해 보면? A. 모델 2가 실제와 가장 유사한 모델이라고 하였을 때, 모델 1은 너무 단순화되어 있고, 모델 3은 복잡성이 너무 높음 학습데이터를 다시 분할하여 학습 데이터와 학습된 모델의 성능을 일차 평가하는 검증 데이터로 나눔. 검증데.. 2022. 4. 19.
머신러닝 train_test_split scikit-learn(feat.사이킷런) 학습데이터와 테스트데이터를 쉽게 분리 할 수 있도록 scikit-learn에서 train_test_split를 제공하고 있다. Train: 모델을 학습 시키기위한 dataset Test: 학습과 검증이완료된 모델의 성능을 평가하기위한 dataset, 학습에 관여하지 않는다. Validation: 이미 학습된 모델을 검증하기위한 dataset 으로 Train 의 일부이다. X_train, X_test, y_train,y_test = train_test_split(’피쳐데이터세트’, ‘레이블데이터세트’, test_size=’전체데이터세트중테스트데이터비율’, random_state=’호출할때마다 같은 학습//테스트용 데이트 세트를 생성하기위해 주어지는 난수 발생값 ’) train_test_split 는 무작위.. 2022. 4. 14.
머신러닝 용어 및 기본 예측 프로세스 (feat.사이킷런) 1-1.용어정리 피쳐(Feature) , 속성 피처는 데이터세트의 일반속성, 타겟값을 제외한 나머지 속성을 모두 피처로 칭함 타겟(값),결정(값)(=레이블, 클래스) 지도학습시 데이터의 학습을 위해 주어지는 정답 데이터, 레이블, 클래스 ⇒ 지도 학습 중 분류의 경우 에는 이 결정 값을 레이블 또는 클래스로 칭함 지도학습 - 정답이 주어진 데이터(Prediction) 를 학습 한 뒤 미지의 정답을 예측하는 방식(회귀,분류) 학습데이터세트-학습을 위한 데이터 세트(속성과 결정값(레이블)이 모두 있어야한다. 테스트데이터세트- 예측 성능을 평가하기 위한 데이터 세트-- 회기 분석, 분류 1-2. 예측 프로세스 데이터 세트 분리 - 데이터를 학습 데이터와 테스트 데이터로 분리 모델 학습 - 학습 데이터를 기반으.. 2022. 4. 12.
인공지능 머신러닝 딥러닝 정리 머신러닝 시작 전에 기본 용어 부터 정리해보자 1. 인공지능 인공지능은 인간의 학습능력과 추론능력, 지각능력, 자연언어의 이해 능력 등을 컴퓨터 프로그램으로 실현한 기술입니다. 즉 인간의 지능을 기계로 구현 하는것으로 컴퓨터가 마치 사람처럼 생각하고 판단하는 영역 전체를 의미하는 단어입니다. 2. 머신러닝 인공지능의 일부이며 인공지능을 구현하는 구체적인 접근 방식을 의미합니다. 경험적 데이터를 기반으로 학습하고 예측을 수행하여 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 고안하고 구축 하는 연구 분야 입니다. 데이터를 이용해서 모델을 만들어 내면 논리적으로 설명하기 어려운 분야에 머신러닝을 적용하면 사람이 직접 모델을 만드는 것보 다 좋은 결과를 얻을수 있습니다. 대량의 데이터와 알고리즘을 .. 2022. 4. 7.
728x90
반응형