BDA 빅데이터 분석 학회/ADsP 스터디

ADsP 자격증 스터디 3주차 (데이터 분석 기획)

_jinyj 2024. 5. 3. 23:30

스터디 날짜: 4월 9일

스터디 범위: PART 2 데이터 분석 기획(p65~p116)


Chapter 1. 데이터 분석 기획의 이해

Section 1. 분석 기획 방향성 도출

  1. 분석 기획

1) 분석 기획의 정의 및 특징

  • 실제 데이터를 분석하기 전에 수행할 과제의 정의 및 의도했던 결과가 도출될 수 있도록 관리할 수 있는 방안을 사전에 계획
  • 해당 영역에 대한 전문성 역량 및 통계학적 지식을 활용한 분석 역량, 분석 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형잡힌 시각을 가지고 방향성 및 계획을 수립해야 함
  • 분석가에게 요구되는 역량: 통계학적 지식을 활용한 분석역량, IT 및 프로그래밍 기술, 분석 주제에 대한 도메인 전문성, 의사소통 능력, 프로젝트 관리, 리더십 역량

2) 분석 주제 유형

  • 최적화(Optimization): 분석 대상이 무엇인지 인지, 현 문제를 최적화의 형태로 수행
  • 솔루션(Solution): 분석 대상 인지, 분석 방법을 모를 때
  • 통찰(Insight): 분석대상 불분명, 분석방법 알고 있을 때
  • 발견(Discovery): 분석 대상과 분석 방법을 모두 모르는 경우

2. 분석 기획 방안 및 고려사항

1) 목표 시점별 분석 기획 방안

  • 과제 중심적인 접근방식의 단기 방안

- 과제를 단기로 달성하고 추진, 즉각적인 실행을 통한 성과 도출, 문제 해결을 위한 단기적인 접근 방법

  • 마스터플랜 단위의 중장기 방안

- 장기적 마스터 플랜을 세워 지속적인 분석 문화를 내재화, 문제 정의를 위한 장기적인 마스터플랜 접근 방법

2) 분석 기획시 고려사항

  • 가용한 데이터에 대한 고려: 분석을 위한 데이터 확보는 필수적, 데이터 유형 분석이 선행적으로 이루어 져야 함
  • 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립: 일회성 분석이 아닌 지속적인 교육 및 활용 방안 등의 변화 관리가 고려되어야 함
  • 분석을 통해 가치가 창출될 수 있는 적절한 유스케이스 탐색: 유사분석 시나리오 및 솔루션이 있다면 최대한 활용

Section 2. 분석 방법론

  1. 데이터 분석 방법론

1) 데이터 분석 방법론 개요

  • 체계적인 절차와 그 처리 방법을 정리한 것임, 필수적으로 수립해야 함, 분석 방법론은 업무 수행에 대한 최소한의 품질 보증, 데이터 기반의 의사결정
  • 역량과 경험에 의존하지 않고 수행하는 사람과 관계없이 일정 수준의 질과 양이 보장될 수 있는 시스템이어야 함
  • 데이터 분석을 체계화하는 절차와 방법이 정리된 데이터 분석 방법론 수립이 필요함
  • 데이터 분석 방법론의 구성요소: 상세한 절차, 실행방법, 도구와 기법, 템플릿과 산출물
  • 합리적 의사결정에 장애가 되는 요소: 고정관념, 편향된 생각, 프레이밍 효과(동일한 사건이나 상황임에도 사람들의 선택이나 판단이 달라지는 현상)

2) 분석 방법론의 적용 업무 특성에 따른 모델

  • 폭포수 모델

- 이전 단계가 완료되어야 다음 단계로 진행하는 하향식, 순차적 진행이다

- 문제점 발견되면 이전 단계로 돌아가는 피드백 수행, 각 단계를 확실히 매듭짓고 검토해 승인 과정을 거친 후 다음단계 진행, 전통적인 모델임

  • 나선형 모델

- 반복을 통해 점층적으로 개발, 처음 시도하는 프로젝트에 용이, 관리 체계가 갖춰져 있지 않다면 복잡도 상승함

  • 프로토타입 모델

- 고객의 요구사항을 완전히 이해하고 있지 못하거나 완벽한 요구사항 분석의 어려움을 해결하기 위한 방식

- 분석을 시도하고 그 결과를 확인해가면서 반복적으로 개선해나가는 상향식 접근방법

- 특정 가설을 갖고 서비스를 설계, 디자인에 대한 실험도 진행, 빠르게 해결책 모델 제시 가능

- 프로토타입을 보고 완성시킨 결과물을 통해 가설 확인 가능, 시제품이 나오기 전 제품의 원형임, 개발 검증과 양산 검증을 거쳐야 시제품이 될 수 있음

- 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템 개발, 일부분을 먼저 개발한 프로토타입을 통해 고객의 요구사항을 정확하게 분석하는 방식임 (완전하지 않더라도 신속하게 모델 제시, 지속적인 반복 과정을 통해 의도했던 결과에 가까워지는 형태로 진행)

- 가설 생성, 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과에서의 통찰 및 가설 확인으로 구성

3) 분석 방법론의 종류

  • 통계적 분석 방법론 : 학술 연구에 많이 이용, 비즈니스 목적으로는 적합하지 않음, 모집단을 대표할 수 있는 표본 집단에서 정보를 수집하고 가설 검증 등 추론 과정을 거쳐 분석
  • 데이터 마이닝 분석 방법론: 분석을 통해 비즈니스 활용을 위한 절차와 방법이 정리되어 있는 데이터 분석 방법론, 비즈니스 활용 목적으로 만들어짐, 대용량 자료로부터 패턴 파악해 유의미한 데이터 추출, 데이터가 크고 다양할수록 활용하기 유리한 분석 방법
  • 빅데이터 분석 방법론: 비정형 데이터 활용을 위한 새로운 분석 방법론, 데이터 마이닝 방법론이 관계형 데이터베이스 기반인 반면 빅데이터 방법론은 관계형 데이터 베이스 기반 + NoSQL

2. 데이터 마이닝 분석 방법론

  • 데이터 마이닝: 데이터 저장소에 저장된 대용량 데이터를 조사함으로써 의미있는 상관관계, 패턴, 추세 등을 발견하는 과정, 가설이나 가정에 따른 분석이나 검증하거나 통계학 전문가가 사용하는 도구는 아님, 다양한 알고리즘을 이용하여 DB의 데이터로부터 의미있는 정보를 찾아내는 방법

1) SEMMA 분석 방법론

  • 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제 재정의 및 해결방안 탐색하여 개선하는 방법
  • 대량의 센서 데이터에서 많이 요구, 데이터 마이닝 기법
  • Sampling: 분석 데이터를 추출하는 단계, 적절한 양의 표본을 원래 자료로부터 추출
  • Exploration: 분석 대상 데이터를 탐색, 여러가지 자료의 탐색을 통해 기본적인 정보를 획득
  • Modification: 최적의 모델 구축을 위해 다양한 형태로 변수를 생성하거나 선택 및 변환, 그룹화
  • Modeling: 분석 목적에 따라 적절한 기법을 사용해 예측 모형을 만듦
  • Assessment: 모형화 결과에 대한 신뢰성, 유용성 등을 평가

2) KDD(지식 탐색 중심) 분석 방법론 - 프로파일링 기술을 기반, 통계적 패턴이나 지식을 찾기 위해 활용

  • 데이터셋 선택 (Selection): 원시데이터에서 분석에 필요한 데이터 선택, 필요시 추가적으로 데이터셋 생성, 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표설정이 필수, 데이터마이닝에 필요한 목표 데이터를 구성해 분석에 활용
  • 데이터 전처리(Preprocessing): 데이터셋에 포함되어 있는 잡음, 이상값, 결측치를 식별하고 필요시 제거하거나 의미있는 데이터로 처리하는 단계, 추가로 요구되는 데이터셋이 필요한 경우 앞 과정에서 재실행
  • 데이터 변환(Transformation): 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋을 변경, 정제된 데이터에 분석 목적에 맞는 변수 선택하거나 데이터의 차원을 축소, 학습용 데이터와 검증용 데이터로 데이터를 분리
  • 데이터 마이닝(Mining): 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘 선택, 데이터의 패턴을 검색하거나 분류 혹은 예측, 학습용 데이터를 이용해 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘을 선택, 필요에 따라 전처리와 변환 과정을 추가로 실행해 최적의 결과 도출
  • 데이터 마이닝 결과 평가(Interpretation/Evaluation): 데이터 마이닝 결과에 대해 해석하고 평가 및 활용, 데이터 분석 목적과의 일치성을 확인, 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련, 필요시 선택부터 마이닝까지 반복 수행

3) CRISP-DM 분석 방법론

  • 가장 많이 사용되는 데이터 마이닝 표준 분석 방법론
  • 4개 레벨과 6단계의 프로세스로 구성된 계층적 프로세스 모델 (4개 레벨: 단계 - 일반화 작업 - 세부작업 - 프로세스 실행)
  • 단방향으로 구성되어 있지 않고 단계간 피드백을 통해 완성도를 높이게 구성됨
  • 6단계: 업무 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개

- 업무 이해: 프로젝트 목저고가 요구사항 이해, 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계, 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 과정을 수행

- 데이터 이해: 데이터 수집과 데이터 속성의 이해를 위한 과정, 데이터 품질에 대한 문제점 식별, 숨겨져 있는 인사이트를 발견, 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 과정을 수행

- 데이터 준비: 데이터에서 분석 기법에 적합한 데이터셋을 준비하는 단계, KDD 분석 방법론의 변환 단계와 같은 과정, 데이터 정제, 데이터 통합, 데이터 포맷팅을 수행하며 많은 시간 소요될 수 있음

- 모델링: 데이터 분석 모델링 기법과 알고리즘을 선택, 파라미터를 최적화 해나감, 모델링 단계를 통해 찾아낸 모델은 테스트용 데이터셋으로 평가하여 모델 과적합 등의 문제를 발견하고 대응 방안을 마련, 모델링 기법 선택, 모델링 작성, 모델의 성능 측정을 수행

- 평가: 모델링 단계에서 얻어낸 모델이 프로젝트의 목적에 부합하는지 평가하는 단계, 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가를 수행

- 전개: 완성된 모델을 실제 업무에 적용하기 위한 계획 수립 단계, 모델에 적용되는 비즈니스 도메인 특성, 입력 데이터의 품질 편차, 운영 모델의 평가 기준에 따라 생명 주기가 다양하므로 상세한 전개 계획이 필요

3. 빅데이터 분석 방법론

  • 3계층 구조: 단계, 태스크, 스텝(WBS 작업 분할 구조도를 통해 필요한 활동과 업무를 세분화)
  • 빅데이터 분석 절차: 분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개

1) 분석 기획

  • 비즈니스 이해 및 프로젝트 범위 설정: 프로젝트에 참여하는 관계자들의 이해를 일치시키기 위하여 구조화된 프로젝트 범위 정의서 SOW(작업 기술서/명세서)를 작성
  • 데이터 분석 프로젝트 정의 및 수행 계획 수립: WBS 작성
  • 프로젝트 위험 계획 수립: 위험 관리 계획서 작성

- 위험 대응 방법: 회피, 전이, 완화, 수용

2) 데이터 준비

  • 필요 데이터 정의: 메타데이터 정의서, ERD를 포함, 내부와 외부 데이터에 따라 구분
  • 데이터 스토어 설계: 정형과 비정형에 따라 구분
  • 데이터 수집 및 정합성 점검: 크롤링(자동화 방법으로 수집), ETL(다양한 데이터 원천으로 부터 데이터 추출후 데이터 베이스에 적재), API(라이브러리에 접근하기 위한 규칙들을 정의), 스크립트 프로그램 등으로 데이터를 수집

3) 데이터 분석

  • 분석용 데이터 정리: 비즈니스 규칙 확인, 데이터셋 준비, 데이터 저장소에서 데이터 추출
  • 텍스트 분석: 텍스트 데이터를 확인 및 추출, 분석
  • 탐색적 분석 (EDA): 결측치, 이상치를 확인, 데이터의 특이한 점이나 의미있는 사실을 도출, 데이터 탐색 보고서, 데이터 시각화 보고서가 결과물
  • 모델링: 훈련 데이터와 테스트 데이터로 분할, 분류, 에측, 군집 등의 기능을 수행
  • 모델 평가 및 검증

4) 시스템 구현

  • 시스템 분석 설계 및 구현: 모델 도출하여 운영중인 가동 시스템에 적용, 사전 검증으로 프로토타입 시스템을 구현
  • 시스템 테스트 및 운영

5) 평가 및 전개

  • 모델 발전 계획: 모델의 생명주기 설정, 유지보수, 발전계획 수립
  • 프로젝트 평가 보고, 종료

Section 3. 분석 과제 도출

  1. 데이터 분석 과제 도출

1) 데이터 분석 과제 도출 개요

  • 풀어야 할 다양한 문제를 분석 문제로 변환, 분석 과제 정의서 형태로 도출
  • 데이터 분석의 지속적인 반복 및 개선을 통해 결가에 가까워지는 형태
  • 분석과제 정의서를 기반으로 시작, 프로토 타입 방식의 애자일 프로젝트(빠르게 반복 작업, 실제 작동 가능한 소프트웨어 개발) 관리 방식에 대한 고려도 필요

2) 분석 과제 도출 방법

  • 하향식 접근 방법: 분석 문제가 확실할 때, 전통적인 문제 도출 접근 방법, 지도 학습
  • 상향식 접근 방법: 문제 정의 자체가 어려운 경우 사용, 많은 양의 데이터 자체의 분석을 통한 통찰력과 지식을 얻음, 비지도 학습
  • 디자인 싱킹: 상향식 접근의 발산 + 하향식 접근의 수렵을 반복적으로 수행

2. 하향식 접근 방석

1) 문제 탐색 단계

  • 비즈니스 모델 기반 문제 탐색: 비즈니스 모델 캔버스 기반 문제 탐색, 거시적 관점 분석 모델 (STEEP), 경쟁자 확대 관점 분석 모델, 시장의 니즈 탐색 관점 분석 모델

- 비즈니스 모델 캔버스 기반 문제 탐색: 9가지 블록을 단순화하여 업무, 제품, 고객 단위로 문제를 발굴, 규제 및 감사 영역, 지원 인프라 영역을 통해 문제 관리 작업 수행

- 거시적 관점 분석 모델 (STEEP): 사회, 기술, 경제, 환경, 정치 영역

- 경쟁자 확대 관점 분석 모델: 대체재, 경쟁자, 신규 진입자

- 시장의 니즈 탐색 관점 분석 모델: 고객, 채널, 영향자

- 역량의 재해석 관점 분석 모델: 내부 역량, 파트너 네트워크

  • 외부 참조 모델 기반 문제 탐색

- 유사하거나 동종 업계의 사례를 벤치마킹하여 분석 기회 도출, Quick&Easy 방식으로 얻어냄, 분석 주제의 후보 목록을 브레인 스토밍 기법으로 빠르게 도출

  • 분석 유스 케이스: 도출한 분석 기회들에 대해 구체적인 과제로 만들기 전에 분석 유스 케이스로 정의하는 것이 필요, 해결해야 할 문제에 대한 상세한 설명과 해결했을 시에 발생하는 효과를 명시

2) 문제 정의 단계: 데이터 분석 문제 변환

  • 문제 탐색을 토해 식별된 비즈니스 문제를 데이터 분석 문제로 변환하여 정의
  • 데이터 분석은 분석 수행 당사자 뿐 아니라 효용을 얻을 수 있는 최종 사용자 관점에서 이루어져야 함

3) 해결 방안 탐색 단계: 수행 옵션 도출분석

  • 분석 역량에 따라 확보, 미확보로 나눔

4) 타당성 검토 단계: 타당성 평가 -> 과제 선정

  • 경제적 타당도는 비용 대비 효익 분석 관점의 접근 필요
  • 데이터 및 기술적 타당도에는 분석을 위한 데이터의 존재 여부, 분석 시스템 환경, 분석 역량이 필요
  • 타당성 검토를 위해 도출된 대안을 다양하게 활용 가능

3. 상향식 접근 방식

1) 상향식 접근 방식의 등장

  • 분석 과제를 도출하는 방법론: 디자인 싱킹, 프로토타이핑 모델, 비지도 학습

2) 상향식 접근 방식의 수행

  • 데이터 분석은 비지도 학습 (입력값만 있는 훈련 데이터를 사용하여 패턴이나 구조를 발견) 방법에 의해 수행
  • 인사이트 도출 후 반복적인 시행착오를 통해 수정하며 문제를 도출하는 일련의 과정
  • 통계적 분석에서는 인과관계를 분석하기 위해 가설을 설정하고 이를 검정하기 위해 모집단으로부터 표본을 추출하고 그 표본을 이용한 가설 검정을 실시하는 방식으로 문제 해결

3) 디자인 싱킹

  • 인간과 사물을 관찰하고 공감, 이해하고 다양한 방법을 찾는 창의적 문제 해결 방법
  • 시각적 앋이디어 도출을 통해 사용자를 포함한 이해 관계자를 이끌어내 빠른 시일 내에 가시적인 프로토 타입을 공동 제작하는 액션 전략
  • 디자인 싱킹 5단계 과정: 공감하기 - 정의하기 - 아이디어 내기 - 프로토타입 만들기 - 테스트하기

4) 프로토타이핑 모델

  • 사용자 요구 사항을 정확히 파악하기 어렵고 데이터를 규정하기 어려운 상황에서 먼저 분석을 시도해보고 결과를 확인해가며 반복적으로 모델을 개선해나가는 방법
  • 반복 과정을 통해 목표했던 결과에 가까운 형태로 프로젝트를 진행

5) 비지도 학습

  • 학습 알고리즘의 결과물이라고 할 수 있는 레이블(정답)을 제공하지 않고 인공지능이 입력 데이터셋에서 패턴과 상관관계를 찾아내는 머신 러닝 알고리즘
  • 상향식 접근 방식의 절차; 프로세스 분류 - 프로세스 흐름 분석 - 분석요건 식별 - 분석요건 정의

4. 분석 프로젝트 특징

  • 품질, 리스크, 의사소통, 범위, 일정 등 영역별 관리가 수행 되어야 함
  • 분석 과제 5가지 주요 특성: 데이터 크기, 데이터 복잡도, 속도, 분석 복잡도, 정확도와 정밀도
  • 도출된 결과의 재해석을 통한 지속적인 반복 및 정규화가 수행되기도 함
  • 분석 과제 정의서를 기반으로 분석 프로젝트를 진행

Section 3. 분석 프로젝트 관리 방안

  1. 분석 과제 관리 영역

1) 데이터 크기

  • 하둡(여러 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술) 분산 프레임워크 환경에서의 대규모 데이터를 기반으로 분석하는 것과 기존의 정형 데이터베이스에 있는 데이터를 분석할 때의 고나리 방식 간의 차이가 필요

2) 데이터 복잡도: 해당 데이터에 잘 적용될 수 있는 분석 모델 선정에 대한 고려가 필요

3) 속도

4) 분석 복잡도: 분석 모델의 정확도와 복잡도는 트레이드 오프 관계가 존재하므로 (두 목표 가운데 하나를 달성하려고 하면 다른 목표의 달성이 늦어지거나 희생되는 관계) 이에 대한 기준점을 사전에 정의해두어야 한다

5) 정확도와 정밀도

  • 정확도: 모델의 예측 값과 실제 값의 차이를 나타냄, 정확도가 높을수록 예측 값과 실제값의 차이가 적음
  • 정밀도: 모델을 반복적으로 수행했을 때 예측 값과 실제 값 사이의 편차의 수준을 의미, 모델이 true 라고 한 것중 실제 값도 true 인 것의 비율
  • 정확도와 정밀도는 트레이드 오프 관계, 분석의 활용적인 측면에서는 정확도, 안정성 측면에서는 정밀도

2. 주제별 프로젝트 관리 체계(방안)

분석 프로젝트 관리 요소: 시간, 범위, 품ㅁ질, 통합, 이해관계자, 자원, 원가, 리스크, 조달, 의사소통

Chapter 2. 분석 마스터 플랜

Section 1. 분석 기획 방향성 도출

  1. 분석 마스터 플랜
  • 과제의 우선순위를 결정하고 단기 및 중장기로 나누어 계획을 수립
  • 전략적 중요도, 비즈니스 성과, ROI(투자 혹은 비용에 대한 순수익), 분석과제의 실행 용이성을 고려하여 과제의 우선순위를 설정
  • 일반적인 ISP 방법론을 활용하되(ISP: 정보 전략 계획, 전사적 관점의 정보 구조를 도출, 전략 및 실행 계획 수립하는 전사적인 종합추진 계획) 데이터 분석 기획의 특성을 고려하여 수행

2. 분석 마스터플랜 수립 프레임 워크

1) 분석 마스터플랜 수립

  • 분석 마스터플랜 수립 기준

- 우선순위 고려 요소 - 실행 용이성, ROI, 전략적 중요도

- 적용 우선순위 결정 고려 요소 - 기술 적용 수준, 분석 데이터 적용 수준, 업무 내재화 적용 수준

  • 빅데이터 특징을 고려한 ROI 요소

- 투자 비용 측면의 요소 - 크기, 다양성, 속도

- 비즈니스 효과 측면의 요소- 가치

2) 분석 과제 도출 및 우선순위 평가 방법과 절차

  • 분석 과제 우선순위 평가 기준: 시급성, 난이도 -> 이거에 따라 사분면 분석
  • 우선순위가 시급성: 시급성이 높은 현재에서 부터 미래
  • 우선순위가 난이도: 난이도가 쉬운 것부터 어려운 것

3) 로드맵 수립

  • 추진 단계: 데이터 분석 체계 도입(비즈니스 페인 포인트(지속적으로 고객에게 불편을 초래한 상품이나 서비스)가 무엇인지 식별) - 데이터 분석 유효성 입증 - 데이터 분석 확산과 고도화

4) 세부 이행계획 수립

  • 세부 이행계획 수립 단계: 데이터 분석 과제 정의 - 데이터 준비 및 탐색 - 데이터 분석 모델링 및 검증 - 산출물 정리

Section 2. 분석 거버넌스 체계

  1. 분석 거버넌스

1) 분석 거버넌스 체계 정의

  • 어떤 목적으로 분석 수행하며 분석을 위해 데이터를 어떻게 활용할 것인지 결정하는 기업의 문화, 데이터 관리 체계를 의미
  • 분석 거버넌스 체계 구성 요소(POSHD): 프로세스, 조직, 시스템, 인적 자원, 자료

2) 데이터 분석 준비도

  • 6가지 영역: 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터,분석 문화, IT 인프라 (분석 인프라)
  • 진단 과정: 영역 별로 세부 항목에 대한 수준 파악

3) 데이터 분석 성숙도

  • 시스템 개발 업무 능력과 조직의 성숙도 파악을 위해 CMMI 모델을 기반으로 분석 성숙도를 평가
  • 비즈니스 부문, 조직/역량 부문, IT 부문을 대상으로 성숙도 수준에 따라 도입, 활용, 확산, 최적화의 4단계로 구분

- 도입 -> 활용 -> 확산 -> 최적화 (IT 부문에서는 분석 샌드박스(안전하게 구성된 분석 환경, 외부 접근 및 영향을 차단하여 제한된 영역에서만 프로그램을 동작시키는 보안 모델))

  • 사분면 분석: 성숙도와 준비도에 따라 정착형, 확산형, 준비형, 도입형으로 나뉨

- 확산형: 준비도와 성숙도 높음

- 정착형: 준비도 낮고 성숙도 높음

- 도입형: 준비도 높고 성숙도 낮음

- 준비행: 준비도와 성숙도 낮음

4) 분석 플랫폼

  • 분석 마스터 플랜을 기획하는 단계부터 장기적, 안정적으로 활용할 수 있는 확장성을 고려한 플랫폼 구조를 도입하는 것이 적절
  • 분석 플랫폼 구성요소: 분석 서비스 제공 엔진, 분석 애플리케이션, 분석 서비스 제공 API, 데이터 처리 프레임 워크, 분석 엔진, 분석 라이브러리, 운영체제, 하드웨어

2. 데이터 거버넌스

1) 데이터 거버넌스 개념

  • 데이터 표준 및 정책에 따라 데이터를 생성 및 변경하고 데이터의 품질과 보안 등 전사적 차원에서 데이터 관리 체계를 구축하는 활동
  • 데이터 거버넌스의 주요 관리 대상: 데이터 사전, 마스터 데이터, 메타 데이터
  • 데이터 거버넌스가 확립되지 못하면 빅브라더(정보의 독점으로 사회를 통제하는 관리 권력 혹은 그러한 사회체계)의 우려가 현실화될 가능성이 높음

2) 데이터 거버넌스 구성요소

  • 원칙. 조직, 프로세스로 구성
  • 데이터 거버넌스 체계 요소: 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동

3) 빅데이터 거버넌스 특징

  • 분석 대상 및 목적을 명확히 정의하고 필요한 데이터를 수집, 분석하여 점진적으로 확대해 나가는 것이 바람직
  • 품질 고나리도 중요하지만 데이터 수명 주기 관리 방안을 수립하지 않으면 데이터 가용성 및 관리 비용 증대 문제에 직면할 수 있다
  • ERD(개체 관계도)는 운영중인 데이터 베이스와 일치하기 위해 계속해서 변경사항을 관리해야 함

3. 소프트웨어 프로세스

1) 소프트웨어 프로세스 품질

  • 대표적인 소프트웨어 개발 표준: 미 국방성의 CMM(최근에는 CMMI를 많이 사용), ISO, SPICE, ISO/IEC 12207
  • CMMI 모델 5단계; 초기 - 관리 - 정의 - 정량적 관리 - 최적화

2) SPICE

  • 5개 프로세스 범주: 고객-공급자, 공학, 지원, 관리, 조직
  • 40개의 세부 프로세스로 구성
  • 목적: 프로세스 개선을 위해 기관이 스스로 평가, 기관에서 지정한 요구조건의 만족 여부를 개발 조직이 스스로 평가, 계약 체결을 위해 수탁기관의 프로세스를 평가
  • 수행 능력 단계; 불완전, 수행, 관리, 확립, 예측, 최적화

3) ISO/IEC 12207

  • ISO에서 만든 표준 소프트웨어 생명 주기 프로세스로서 소프트웨어의 개발, 운영, 유지보수 등을 체계적으로 관리하기 위한 솧프트 웨어 생명주기 표준을 제공
  • 프로세스 종류: 기본 생명주기 프로세스, 지원 생명주기 프로세스, 조직 생명주기 프로세스

Section 3. 데이터 분석 조직

  1. 분석조직

1) 분석 조직 개요

  • 빅데이터 등장에 따라 기업의 비즈니스도 많은 변화를 겪고 있으며, 이런 비즈니스 변화를 인식하고 기업의 차별화된 경쟁력을 확보하는 수단으로서 데이터를 효과적으로 분석 및 활용하기 위해 전문 분석 조직의 필요성이 제기되고 있음
  • 데이터 분석 조직은 기업의 경쟁력을 확보하기 위해 데이터 분석의 가치를 발견하고 이를 활용해 비즈니스를 최적화하는 목표를 갖고 구성됨

2) 분석 조직 및 인력구성 시 고려사항

  • 조직 구조에 대한 고려사항
  • 인력 구성에 대한 고려사항
  • 분석 조직 구조 유형

- 집중형 조직 구조: 조직내 별도 독립적인 분석 전담 조직 구성, 전략 적 중요도에 따라 우선순위를 정해 추진, 일부 현업 부서와 분석 업무가 중복 또는 이원화될 가능성 있음

- 기능 중심 조직 구조: 별도 분석 조직 구성하지 않고 해당 업무부서에서 직접 분석, 국한된 분석 수행의 가능성이 높고 일부 중복된 분석 업무를 수행 할 수 있음

- 분산 조직 구조: 분석 조직의 인력들이 현업 부서에 배치되어 업무를 수행, 우선순위를 선정해 수행 가능, 분석 결과를 신속하게 실무 적용 가능

  • 분석 조직의 인력구성: 비즈니스 인력, IT 기술 인력, 분석 전문 인력, 변화 관리 인력, 교육 담당 인력

2. 분석 과제 기획 및 운영

1) 분석 과제 관리 프로젝트 수립

  • 초기 데이터 분석 과제가 성공적으로 수행되는 경우 지속적인 분석 니즈 및 기회가 분석 과제 형태로 도출 될 수 있음
  • 분석 조직이 지속적이고 체계적인 분석 관리 프로세스를 수행함으로써 조직 내 분석 문화 내재화 및 경쟁력 확보

2) 분석 조직의 변화 관리

  • 기업 내 데이터 분석가가 담당했던 일을 모든 구성원이 데이터를 분석하고 업무에 활용할 수 있도록 조직 전반에 문화를 정착시키고 변화시키려는 시도가 있음
  • 과제 발굴 및 수행 과정:

- 과제 발굴 (과제 제안자): 분석 아이디어 발굴 - 분석 과제 후보 제안 - 분석 과제 확정

- 과제 수행 (과제 추진팀): 팀 구성 - 분석 과제 실행 - 분석 과제 진행 관리 - 결과 공유 및 개선

3) 분석 교육

  • 비즈니스 영역에서의 빅데이터 활용에 대한 올바른 대응 방법: 기업에 맞는 적합한 분석 업무를 도출 및 수행, 경영진이 사실 기반 의사결정을 할 수 있는 문화를 정착
  • 비즈니스 영역에서의 빅데이터 활용에서 조직역량의 방해 요인: 분석 전문가의 부족, 섀도우 IT(개인 혹은 조직 단위로 회사에서 허용하지 않는 IT 도구), 사일로(Silo) 조직 (회사 안에서 다른 부서와 소통하지 않는 부서)
  • 분석 내재화 단계

- 준비기: 분석 중심 문화가 미도입, 현재의 균형

- 도입기: 많은 조직이 분석 과제를 성공시키지 못하고 포기

- 안정추진기: 분석 활용이 일상화된 균형을 이룸

  • 분석 역량을 확보하고 강화하는 것에 초점을 둬야 함

- 분석 기획자: 데이터 분석 큐레이터 교육

- 분석 실무자: 데이터 기법 및 툴에 대한 교육

- 업무 수행자: 분석 기회 발굴, 구체화, 시나리오 작성법 등


 

후기: 개념적인 부분이라 오히려 더 단어들이 헷갈렸던 것 같다. 같은 단어라도 보기에 영어로 되어 있는 경우도 있어서 공부를 할 때 영어로 적힌 단어들도 잘 봐야 할 것 같다. part 3보다는 쉬운데 헷갈리는 부분들이 은근히 있어서 단어 정리를 잘 해야 겠다.