빅데이터분석필기 [1과목] 빅데이터 분석 기획 - 2.데이터 분석 계획
1.2 데이터 분석 계획
* 분석 : 잠재원인을 파악하고 , 데이터를 수집및 분석하는 활동
* 과제 : 처리해야될 문제
* 문제 : 기대 상태(목표)와 현재 상태(현상)를 동일한 수준으로 맞추는 과정
* 상향식 접근방식과 하향식 접근방식을 반복적으로 수행하면서 상호 보완하며 분석문제를 발굴한다.
* 파일럿 (Pilot) - 이미검증된 기술을 가지고 본 프로젝트를 본격적으로 진행하기 위해 시험운영을 통해 효과를 미리 검토하고 문제점 여부를 점검하는 소규모 프로젝트
* 하향식 접근방식(Top Down Approach)
- 문제가 정의되어있고 해결방법을 찾기위해 단계적 업무를 수행함
- 절차: 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 검토 → 선택
- 문제 탐색: 비즈니스 모델기반 문제 탐색,분석기회 발굴범위 확장,외부 참조 모델기반 문제탐색, 유스케이스 정의
- 문제 정의: 사용자 관점에서 정의, 필요 데이터 및 기법 정의
- 해결방안 탐색: 분석기법(How) 및 역량(Who)에 따라 다양하게 탐색 ⇒ 기존 시스템/ 교육 및 채용/ 시스템 고도화/ 아웃소싱
- 타당성 검토: 경제적/ 데이터 및 기술적/ 운영적 타당성 평가
- 선택: 최적 대안을 선택하여 프로젝트화
* 상향식 접근방식(Bottom Up Approach)
- 문제 정의 자체가 어려움, 문제가 정의되어있지않음 → 데이터 기반으로 지속적으로 문제 개선
- 디자인사고 접근법을 사용하여 객관적 데이터 자체를 관찰하고 실제적 행동에 옮겨 대상을 이해하는 방식을 적용
- 절차: 프로세스분류(가치, 메가, 메이저, 프로세스 단계로 정의) → 프로세스 흐름분석→ 분석요건식별 →분석요건정의
- 기존 하향식의 한계 극복을 위한 방법
- 특징: 비지도 학습 방법/ 프로토타이핑 접근법 사용
- 비지도 학습: 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터 상태 분석, 장바구니분석, 군집분석,기술통계, 프로파일링 기술 활용
- 프로토타이핑: 시행착오를 통한 문제해결, 분석을 통해 해결책이나 모형을 제시하며 반복적으로 개선, 가설의 생성, 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과 에서의 통찰도출및 가설 확인 프로세스
- 디자인 사고 접근법(Design Thinking): 동적인환경에서 최적의 문제 정의 , 상향식 접근법으로 문제를 도출하고 하향식 접근법으로 해결방법을 찾는 과정을 반복 , 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 확산적 사고,
주어진 상황에 대한 최선의 방법을 찾는 수렴적 사고의 반복을 통해, 혁실적 결과를 도출하는 창의적 문제 해결 방법
* 과제 추진 시 고려해야 하는 우선순위 평가 기준
- 우선순위 고려 요소 : 전략적 중요도, 비지니스 성과/ ROI(비지니스성과에따른 투자여부판단), 실행용이성
- 로드맵수립 : 업무내재화 적용수준, 분석 데이터 적용수준, 기술 적용수준
- 시급성: 전략적 중요도/ 목표 가치(KPI) ⇒ Value - 비지니스 효과
- 난이도: 데이터 관련 비용/ 분석 적용 비용/ 분석 수준 ⇒ Volume/ Variety/ Velocity - 투자비용 요소,범위측면,분석수준
- 가장 우선순위 높은 과제는 시급성↑ 난이도↓
- 가장 우선순위 낮은 과제는 시급성↓ 난이도↑
* 빅데이터 분석 방법론 계층
1. 단계(Phase) - 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선으로 설정 관리 하며, 버전 관리 등을 통한 통재
2. 테스크(Task) - 단계를 구성하는 단위활동
3. 스텝(Step) - 입력자료 , 처리 및 도구, 출력자료로 구성된 단위 프로세스
* 데이터 분석 방법론 구성요소
- 절차, 방법, 도구및 기법, 템플릿과 산출물
* 분석대상과 그방법에 따른 4가지 분석 주제
- 빅데이터 분석 기획 유형 : 최적화/솔루션/ 통찰/ 발견
유형 | 분석대상 | 분석방법 |
최적화 | 안다 | 안다 |
솔루션 | 안다 | 모른다 |
통찰 | 모른다 | 안다 |
발견 | 모른다 | 모른다 |
* 빅데이터 분석 방법론의 분석 절차 - 가장널리사용되는 분석절차
- 분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개
- 분석 기획: 비즈니스 이해 및 범위 설정 ->프로젝트 정의 및 계획 수립 -> 프로젝트 위험 계획 수립
- 위험대응 방법: 회피 / 전가 / 완화 / 수용
- 데이터 준비: 필요 데이터 정의 -> 데이터 스토어 설계 -> 데이터 수집 및 정합성 검증
- 데이터 스토어: DB에 들어가는 데이터 이외에 단순 파일, 이메일 등의 단순한 스토어 타입들을 포함하는 저장소
- 데이터 분석: 데이터 준비 ->텍스트 분석-> 탐색적 분석(EDA) ->모델링 ->모델 평가 및 검증 ->모델 적용 및 운영 방안 수립
- 시스템 구현: 설계 및 구현 ->시스템 테스트 및 운영
- 시스템 및 데이터 아키텍처 설계, 사용자 인터페이스 설계 진행
- 평가 및 전개: 모델 발전 계획 수립 -> 프로젝트 평가 보고
- 모델 생명주기 설정, 주기적인 평가 및 유지보수
* 빅데이터 분석 방법론 유형: KDD/ CRISP-DM/ SEMMA
* KDD (Knowledge Discovery in Database)
- 1996, Fayyad, 프로파일링 기술기반
- 통계적 패턴이나 지식 찾기위한 데이터 마이닝
- 데이터셋 선택 - > 데이터전처리(노이즈/ 이상값/ 결측값 제거) -> 데이터변환(변수찾기, 차원축소)- >데이터마이닝(마이닝기법,알고리즘선택) -> 해석과 평가
* 차원축소 - 목적에따라 데이터 양을 줄이는 기법
* 데이터마이닝 - 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 방법
*CRISP-DM (Cross Industry Standard Process for Data Mining)
- 1996, 유럽연합 ESPRIT, 현재 중단
- 비즈니스 이해 바탕
- 단방향이 아니고 단계간 피드백을 통해 완성도를 높임
- 모델링: 기법/ 알고리즘/ 매개변수
- 방법론 구성: 단계 / 일반화 태스크 / 세분화 태스크 / 프로세스 실행
- 단계 : 최상위레벨
- 일반화 태스크: 단일 프로세스를 완전하게 수행하는 단위
- 세분화 태스크: 일반화 태스크를 구체적으로 수행하는 레벨
- 프로세스실행 : 데이터마이닝을 위한 구체적 실행
- 분석 절차: 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개
- 업무이해 : 비즈니스를 이해하는 단계, 분석의 목적을 이해, 상황파악, 마이닝 목표설정, 계획수립
- 데이터 이해: 데이터 수집/ 속성 이해/ 문제점 식별/ 숨겨진 인사이트 발견/ 품질 확인
- 데이터 준비: 데이터 정제 및 생성 → 분석 가능한 상태로 만듬. 학습 검증 데이터 분리
- 모델링 : 알고리즘선택,모델평가
- 평가: 모델적용성평가
- 단계 간 피드백을 통해 단계별 완성도 높임
* SEMMA 분석 방법론 (Sampling Exploration Modification Modeling Assessment)
- SAS사가 주도한 통계 중심의 5단계
- 샘플링 → 탐색 → 수정 → 모델링 → 검증
- 샘플링: 통계적, 조건 추출 통해 분석 데이터 생성
- 탐색: 분석 데이터 탐색 / 오류 검색 / 현황
- 기초 통계 / 그래프 탐색 / 요인별 분할표 / 클러스터링 / 상관분석 등
- 수정: 데이터 수정 및 변환 / 정보의 표현 극대화/ 변수 생성, 선택, 변형
- 수량화 / 표준화 / 변환 / 그룹화 등
- 모델링: 전통적 통계를 이용한 모델 구축 / 숨겨진 패턴 발견
- 신경망 / 의사결정나무 / 로지스틱 회귀분석 등
- 검증: 모델 평가 검증 / 서로 다른 모델 동시 비교
* 신경망: 컴퓨터에서 사람의 두뇌와 비슷한 방식으로 정보를 처리하기위한 알고리즘
* 의사결정나무: 데이터들이 가진 속성들로 부터 분할 기준 속성을 판별하고 , 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델
* 로지스틱 회귀분석 : 종속변수가 범주형이면서 0 또는 1인경우 사용하는 회귀분석
* 데이터 확보 계획 수립 절차
- 목표 정의 → 요구사항 도출 → 예산안 수립 → 계획 수립
- 목표 정의: 성과 목표, 지표 설정
- 요구사항 도출: 데이터 및 기술 지원 등과 관련된 요구사항(확보 및 관리 계획, 정제 수준, 저장 형태 등)
- 예산안 수립: 데이터 확보, 구축, 정비, 관리 예산
- 계획 수립: 인력 투입 방안 / 일정 관리 / 위험 및 품질 관리
* 분석 절차 및 작업 계획
- 빅데이터 분석 절차
- 문제 인식 → 연구조사 → 모형화 → 자료 수집 → 자료 분석 → 분석결과 공유
- 문제 인식: 비즈니스 문제와 기회 인식 / 가설 형태로 문제 정의
- 연구조사: 각종 문헌 조사 / 조사 내용을 해결방안에 적용
- 모형화: 복잡한 문제를 분리하고 단순화하는 과정 / 문제를 변수 간의 관계로 정의
- 자료 수집: 데이터 수집 및 변수 측정
- 자료 분석: 자료에서 의미 찾기 / 변수들 간 관계 분석
- 분석결과 공유: 변수 간 관련성을 포함한 분석결과 제시 / 가시화
- 빅데이터 분석 작업 WBS 설정 (WBS; Work Breakdown Structure)
- 데이터 분석 과제 정의: 사전 준비 단계
- 데이터 준비 및 탐색: 세부 일정 만드는 단계
- 데이터 분석 모델링 및 검증
- 산출물 정리
* 프로젝트 위험대응 방법
- 회피, 전가,완화, 수용