제 1장 데이터 분석 기획의 이해
제 1절 분석 기획 방향성 도출
제 2절 분석 방법론
제 3절 분석 과제 발굴
제 4절 분석 프로젝트 관리방안
제2장 분석 마스터 플랜
제1절 분석 마스터 플랜 수립
제2절 분석 거버넌스 체계 수립
머리가 좋아서 인사이트를 절로 발견해 두뇌에 있는 대로 파바박 분석을 하면 참 좋을 일이지만
인간은 생각보다 멍청해서
분석을 위한 체계적 과정을 수립해가는 것이 효율적인 방법이다.
이번 과목에선 효율적인 분석을 위해 우리가 어떤 방법을 사용하여 어떠한 기준으로 체계적으로 실시할 지에 대해 전반적으로 배운다.
제 1절 분석 기획 방향성 도출
분석 기획: 실제 분석을 수행하기에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계확하는 작업
- 어떠한 목표를 달성하기 위해 어떠한 데이터를 가지고 어떠한 방식으로 수행할 지 고민하는 과정
코딩을 잘하고 통계를 잘한다해서 분석을 잘하는 것이 아니다.
예전에 부동산 주가 예측을 모델링한 적이 있다. 부동산 전세, 월세 가격 공식을 몰라 수요 지수를 계산하는 데 쩔쩔맸던 기억이 난다.
분석 전 부동산이라는 도메인에 대한 지식이 부족했기때문이다.
그래서 분석을 하기 위해선 'Math&Statisics', 'Information Technology', and 'Domain knowledge' 세 가지 역량을 고루 갖춰야한다.
세 가지 역량이 고루 갖춰져있다.
우린 무엇을 분석해야 할까?
누구는 공휴일에 따른 스타벅스 아메리카노 판매량을 예측하고 싶어할 수도 있고
누군가는 그냥 단순히 매출량을 올리고 싶다! 라는 단순한 생각만 할 수도 있다.
이처럼 목적만 가진 채 분석의 대상도 모른 채 분석을 시도할 수 있다.
그래서 상황에 따른 조건에 따라 분석 주제 유형을 나눠볼 수 있다.
Optimiztion | Insight |
Solution | Discovery |
여기서 유념할 부분은 한 가지 주제 유형을 택했다해서 분석이 끝날 때까지 주제가 끝까지 이어지지 않는다는 것입니다.
Optimiztion 을 시도하다가 방법이 잘못 됐다는 것을 알고 Solution 의 방식으로 개선할 수도 있습니다.
4가지 유형을 넘나들며 분석을 수행하고 결과를 도출하는 방법을 계속이고 반복합니다.
분석을 목표 시점으로도 나눠 생각해볼 수 있습니다.
지금 당장 과제 제출을 위한 분석과 회사 내에서 혁신을 위해 시행하는 분석을 생각해보자.
우린 같은 분석이라 해서 동일하게 여겨야할까요?
과제 제출을 위한 분석은 결과보단 속도에 초점을 맞춰 문제 해결에만 집중해야할 것이고,
회사내에서 진행하는 분석은 1~3년에 걸쳐 진정한 문제가 무엇인지 찾아내며 꾸준한 연구를 계속해야할 것입니다.
그래서 '과제 중심적인 접근 방식' 과 '장기적인 마스터 플랜 방식' 으로 나누어 볼 수 있다.
과제 단위 | 마스터 플랜 단위 |
Speed & Test | Accuracy & Deploy |
Quick - Win | Long Term View |
Problem Solving | Problem Definition |
이런 특징을 가지고 있겠죠.
분석을 어떠한 방식으로 접근해 어떤 주제를 택할 지 정해졌습니다.
본격적인 기획에 들어가기 앞서, 주의해야할 것이 세 가지 정도 있습니다.
1. 가용한 데이터
2. 적절한 유스케이스
3. 분석과제 수행을 위한 장애요소
첫 번째로 데이터에 대한 파악 입니다. 분석을 위해 가장 중요한 건 데이터입니다. 데이터에 따라 사용할 수 있는 툴이 달라지고 방법들이 천차만별로 달라지기에 유형에 대한 분석이 선행적으로 이뤄져야합니다. 이때 분석은 모델링을 의미하는 것이 아니라 데이터가 DB로 존재하는지, 비정형언어로 이루어지는지 전반적인 데이터 구성 이해에 대한 파악을 뜻합니다.
두 번째 유스케이스의 탐색을 활용하는 것입니다. 흔히 이런 말이 있죠. 사람 생각이 거기서 거기다.. 내가 생각한 아이디어는 과거의 누군가의 아이디어일 확률이 높습니다. 우린 새로운 걸 만들어내는 게 아니라 남들이 생각한 것에서 조금더 새로운 엣지를 추가한다는 생각으로 분석을 시행해야합니다. 그렇게 기존에 잘 구현되어 활용되고 있는 유스케이스를 최대한 활용하는 것이 좋습니다.
세 번째로 장애 요소에 대한 사전 계획 수립이 필요합니다. 분석하다보니 초기에 지정했던 비용 범위를 넘는 일이 흔합니다. 이럴땐 우리가 어떻게 대처해야할 지, 이런 위험에 대한 가능성과 방법을 고안해놔야합니다.
이제 분석 주제 방향도 정했고, 어떤 관점으로 분석할 지도 정했고, 기획하기 전 유념해야하는 사항도 인식했습니다.
그렇다면 가장 중요한 '분석방법론'을 정해야겠지요?
방법론은 적용 업무의 특성에 따라 다양한 모델을 가질 수 있습니다.
즉 폭포수 모델, 나선형 모델, 계층적 프로세스 모델과 같은 모델을 채택하고 적용하여 방법론을 만든다는 뜻입니다.
이해가 좀 어려운 부분인데요.
달고나 커피를 만든다고 생각합시다
보통 생각하는 달고나 커피 방법은
커피, 설탕, 수저, 컵 , 우유 준비 - 물에 커피 타기 - 전자렌지에 10초 돌리기 - 돌리기 - 돌리기 - 우유 따르기 - 우유에 완성된 크림 올리기
이렇게 구성되어있는데요. 1단계인 준비물이 완료되면. 2단계를 시행하고. 2단계가 완료되면 3단계를 이행하는 식입니다. 즉 차근차근 단계에 따라 진행되는 모델을 사용한다는 것입니다.
그러나 이렇게 생각해볼 수도 있겠지요.
커피, 설탕, 수저, 컵, 우유 준비 - 물에 커피 - 전자렌지에 10초돌리기 - 돌리기 - (어라 잘안되네) 전자렌지에 10초 돌리기 - 돌리기 - 전자렌지에 10초 돌리기 - 돌리기 - (잘안되네? 커피를 더 타볼까? ) 물에 커피타기 - 전자렌지에 10초돌리기 - 우유따르기 - 우유에 완성된 크림 올리기
전과 달리 단계가 완성되면 그다음으로 이행되는 게 아니라, 전 단계로 돌아가 다시 수정하고 다시 만들고 다시 수정하고 이런 형태를 띠고 있습니다. 이런 것을 ' 나선형 모델 ' 이라고 합니다.
이처럼 여러 가지 단계를 어떻게 전진해나가냐에 따라서 다양한 모델이 달라지고,
방법론에 따라 이를 적용하는 모델로 달라질 수 있다는 뜻입니다.
일반적으로 많은 방법론은 계층적 프로세스 모델의 형태로 구성되어 있습니다.
제 2절 분석 방법론
분석 방법론은 크게
1. KDD 분석 방법론
2. CRISP - DM 분석 방법론
3. 빅데이터 분석 방법론
으로 구성되어 있습니다.
1. KDD 분석 방법론 ( Knowledge Discovery in Databases)
총 9가지 프로세스로 구성되어 있는데요.
1. 분석 대상 비즈니스 도메인의 이해
2. 분석 대상 데이터셋 선택과 생성
3. 데이터에 포함되어 있는 노이즈와 이상값을 제거하는 전처리
4. 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
5. 분석 목적에 맞는 데이터 마이닝 기법 선택
6. 분석 목적에 맞는 데이터 마이닝 알고리즘 선택
7. 데이터 마이닝 시행
8. 데이터 마이닝 결과에 대한 해석
9. 발견된 지식 활용
9가지 프로세스를 5차원으로 줄이면 이렇습니다.
: 데이터셋 선택(Selection) - 데이터 전처리(Preprocessing) - 데이터 변환(Transformation) - 데이터 마이닝(Data Mining) - 데이터 마이닝 결과 평가 (Interpretation/Evalution)
2. CRISP - DM 분석 방법론 (Cross Industry Standard Process for Data Mining)
크리스피 디엠은 계층적 프로세스 모델로써 4개 레벨로 구성되어 있습니다.
Phase 단계들이 모여 결과를 만듭니다.
Generic Tasks 들이 모여 하나의 Phase 를 완성시킵니다
Specialized Tasks 들이 모여 Generic Tasks 들을 완성시킵니다
그리고 그아래엔 Process Instances가 있겠죠.
크게 보면 6가지의 Phase 들로 구성되어 있습니다.
1. 업무 이해
2. 데이터 이해
3. 데이터 준비
4. 모델링
5. 평가
6. 전개
전반적인 모델을 설명하면 이렇습니다.
Phase : 업무이해
Generic Tasks : 업무 목적 파악, 상황 파악, 데이터마이닝 목표 설정, 프로젝트 계획 수립
이런식으로 제너릭 태스크를 이행하다보면 업무이해 페이즈를 완성시키고
이렇게 총 6개의 페이즈를 완성시켜 분석을 마무리 짓는 다는 뜻입니다.
phase: 데이터 이해
Generic Tasks: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
phase: 데이터 준비
Generic Tasks: 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅(formating 장 데이터 분석 기획의 이해
phase: 모델링
: 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
phase: 평가
: 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
phase: 전개
: 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
3. 빅데이터 분석 방법론
빅데이터 분석 방법론도 역시 계층적 프로세스 모델을 사용하고 있고 총 3계층으로 이루어져있습니다
' Phase, Task, Step ' 으로 구성되어 있습니다.
(전에 나온 crisp-dm 은 Phase, generic tasks, specialized tasks, process instances 로 4가지로 되어 있었습니다)
분석 기획은 크게 보면 총 5가지 단계로 나눠져있는데요.
1. 분석 기획
2. 데이터 준비
3. 데이터 분석
4. 시스템 구현
5. 평가 및 전개
시험에 가장 많이 나오고 중요한 부분이 세세하게 짚고 넘어가겠습니다.
1. 분석 기획(Phase)
1) 비즈니스 이해 및 범위 설정 (task)
2) 프로젝트 정의 및 계획 수립 (task)
3) 프로젝트 위험 계획 수립 (task)
2. 데이터 준비
1) 필요 데이터 정의
2) 데이터 스토어 설계
3) 데이터 수집 및 정합성 점검
3. 데이터 분석
1) 분석용 데이터 준비
2) 텍스트 분석
3) 탐색적 분석
4) 모델링
5) 모델 평가 및 검증
4. 시스템 구현
1) 설계 및 구현
2) 시스템 테스트 및 운영
5. 평가 및 전개
1) 모델 발전 계획 수립
2) 프로젝트 평가 및 보고
분석 방법론 중에 빅데이터 분석 방법론이 가장 까다롭습니다... task에 따른 산출물과 투입물을 시험문제로 내기때문인데요. 그래서 대략적으로 알아봤던 전 방법론과 달리 task 도 세세히 짚고 넘어가겠습니다.
1. 분석 기획
1) 비즈니스 이해 및 범위 설정
- 비즈니스 이해
- 프로젝트 범위 설정 (이때 SOW : Statement Of Work)
2) 프로젝트 정의 및 계획 수립
- 데이터 분석 프로젝트 정의 (프로젝트 정의서)
- 프로젝트 수행 계획 수립 (프로젝트 수행 계획서, WBS)
3) 프로젝트 위험계획 수립
- 데이터 분석 위험 식별
- 위험 대응 계획 수립 (위험관리 계획서)
2. 데이터 준비
1) 필요 데이터 정의
- 데이터 정의 (데이터 정의서)
- 데이터 획득 방안 수립 (데이터 획득 계획서)
2) 데이터 스토어 설계
- 정형 데이터 스토어 설계 (정형 데이터 스토어 설계서, 데이터 매핑 정의서)
- 비정형 데이터 스토어 설계 (비정형 데이터 스토어 설계서, 데이터 매핑 정의서)
3) 데이터 수집 및 정합성 점검
- 데이터 수집 및 저장 ( 수집된 분석용 데이터 )
- 데이터 정합성 점검 ( 데이터 정합성 점검 보고서 )
3. 데이터 분석
1) 분석용 데이터 준비
- 비즈니스 룰 확인 (비즈니스 룰, 분석에 필요한 데이터 범위)
- 분석용 데이터셋 준비 (분석용 데이터셋)
2) 택스트 분석
- 텍스트 데이터 확인 및 추출 (분석용 텍스트 데이터)
- 텍스트 데이터 분석 (텍스트 분석 보고서 )
3) 탐색적 분석
- 탐색적 데이터 분석 (데이터 탐색 보고서)
- 데이터 시각화 (데이터 시각화 보고서)
4) 모델링
- 데이터 분할 (훈련용 데이터, 테스트용 데이터)
- 데이터 모델링 (모델링 결과 보고서)
- 모델 적용 및 운영 방안 (알고리즘 설명서, 모델링 방안)
5) 모델 평가 및 검증
- 모델 평가 (모델 평가보고서)
- 모델 검증 (모델 검증보고서)
4. 시스템 구현
1) 설계 및 구현
- 시스템 분석 및 설계 (시스템 분석 및 설계서)
- 시스템 구현 (구현 시스템)
2) 시스템 테스트 및 운영
- 시스템 테스트 (시스템 테스트 보고서)
- 시스템 운영 계획 (운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서)
5. 평가 및 전개
1) 모델 발전 계획 수립
- 모델 발전 계획
2) 프로젝트 평가 빛 보고
- 프로젝트 성과 평가
- 프로젝트 종료
'ADP (데이터분석 전문가)' 카테고리의 다른 글
제 24회 ADP 실기 복기 (0) | 2022.03.30 |
---|