BDA 빅데이터 분석 학회/ADsP 스터디

ADsP 자격증 스터디 4주차 (데이터의 이해)

_jinyj 2024. 5. 3. 23:31

스터디 날짜: 4월 16일

스터디 범위: PART 1 데이터의 이해 (p.16~62)


Chapter 1. 데이터의 이해

Section 1. 데이터와 정보

  1. 데이터

1) 데이터의 정의

데이터는 객관적인 사실로서 추론, 전망, 추정, 예측을 하기 위한 근거로서 사용되는 특성을 지님

2) 데이터 유형

  • 정성적 데이터: 언어, 문자 등의 형태로 저장, 형태가 일정하지 않은 비정형적 데이터 형태로 저장이 됨, 저장, 검색, 통계분석 작업에 시간과 비용이 많이 소요. ex) 트위터, 블로그와 같은 SNS 상에 올라와 있는 글, 날씨 예보, 뉴스기사, 설문조사 주관식 응답내용 등
  • 정량적 데이터: 수치, 기호, 도형 등으로 표현, 형태가 일정한 정형적 데이터, 데이터베이스 관리 시스템에 저장 및 검색, 분석하여 활용하기가 용이

2. 데이터, 정보, 지식, 지혜

1) DIKW: 데이터를 가공 및 처리하여 얻을 수 있는 것이 정보, 지식, 지혜가 됨

  • 데이터, 정보, 지식, 지혜로 나뉨

2) Polanyi의 지식 구분 - 암묵지, 형식지

  • 암묵지: 개인에게 습득되는 무형의 지식, 비밀스러운 지식, 사회적으로 중요, 공유하기 어려운 지식
  • 형식지: 문서, 매뉴얼처럼 형상화된 지식, 체계적 정리

3) 암묵지와 형식지의 상호작용

공통화 -> 표출화 -> 결합화(연결화) -> 내면화의 4단계로 이루어짐

  • 암묵지의 상호작용: 공통화, 내면화
  • 형식지의 상호작용: 표출화, 연결화
  • 공통화: 암묵지 - 암묵지 (상호작용 통해서 개인이 습득하는 단계, 지식 노하우를 다른 사람에게 알려줌)
  • 표출화: 암묵지 - 형식지 (개인의 암묵적 지식 노하우를 책이나 교본과 같은 매체로 저장, 형식지로 만듦)
  • 결합화(연결화): 형식지 - 형식지 (형식지간 상호 결합을 통해 새로운 형식지가 만들어짐, 책에 자신의 새로운 지식을 추가)
  • 내면화: 형식지 - 암묵지 (만들어진 책을 보고 다른 직원들이 암묵적 지식을 습득)

Section 2. 데이터베이스의 정의와 특징

  1. 데이터베이스

1) 데이터베이스의 정의

  • 사용자가 데이터를 저장 및 공유하며 사용할 수 있는 데이터의 집합
  • 통합된 데이터, 저장된 데이터, 공용 데이터, 운영되는 데이터

2) 데이터 베이스의 특징

  • 실시간 접근성, 지속적 변화, 동시 공유, 내용에 의한 참조

3) 구조적 관점에서 데이터 유형

구조적 관점에서 정형, 비정형, 반정형 데이터로 구분

  • 정형 데이터: 행과 열에 의해 데이터의 속성이 구별되는 표 형식
  • 비정형 데이터: 정형화 되지 않은 데이터, 스키마 구조 형태가 없음
  • 반정형 데이터: 미리 정의된 구조는 있으나 형식이 없음, 연산이 불가, 정형데이터처럼 특정한 형태가 있음 (XML, HTML, JSON, 웹 로그 데이터, 센서 데이터)

4) 데이터베이스 관련 용어: 테이블, 튜플, 속성, 도메인, 차수, 카디널리니티, 관계형 데이터베이스, 식별자

5) 데이터 사전

  • 개체관계도 (ERD): 개체와 개체 사이의 관계를 도형을 이용해 나타낸 그림
  • 인덱스(Index): 데이터베이스에서 테이블에 대한 동작의 속도를 높여주는 자료구조
  • 메타 데이터: 데이터에 관한 데이터로서 데이터를 설명해주는 데이터

2. DBMS

  • 다수의 사용자와 데이터베이스 사이에서 사용자의 요구에 다라 정보를 처리, 데이터베이스를 관리해주는 소프트웨어
  • 관계형 데이터베이스(RDBMS): 데이터를 행열로 구성된 표형식으로 관리하는 데이터 베이스
  • 객체 지향형 데이터 베이스(ODBMS): 사용자 정의 데이터 및 멀티미디어 데이터 등 복잡한 데이터 구조를 표현 및 관리할 수 있음
  • NoSQL: SQL 또는 관계형 데이터베이스만을 사용하지 않고 여러 유형의 데이터베이스를 사용하는 확장형 데이터 베이스 관리 시스템
  • 계층형 DBMS: 데이터를 트리 형태로 표현, 일대다관계로 구성
  • 네트워크형 DBMS: 그래프 구조를 기반으로 데이터를 표현
  • XML DBMS: 데이터를 XML 형식으로 관리

2) 데이터베이스 설계 및 고려사항

요구 조건 분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계 -> 구현 순서로 진행

3) 데이터베이스의 장단점

장점: 데이터 중복 최소화, 실시간 데이터 접근 용이, 데이터 보안 유지, 데이터 공유, 데이터 저장고간 절약, 데이터의 논리적, 물리적 독립성 보장, 데이터 표준화 및 데이터 공유, 데이터 일관성과 무결성 유지, 데이터 통합 관리

단점: 데이터 백업과 복구가 복잡, 데이터베이스 전문가 필요, 시스템이 복잡, 통합 시스템 구조 특성상 일부에서 장애 발생시 시스템 전체에 걸쳐 문제 발생, 데이터베이스 구축에 따른 비용 증가

4) 데이터 무결성

  • 개체 무결성: 데이터 베이스의 개체가 일관되게 유지되는 것, 고객 데이터 베이스의 고객 이름은 고유해야 함
  • 참조 무결성: 데이터베이스의 두 개체간의 관계가 일관되계 유지, 주문의 고객 ID는 고객 데이터베이스에 있는 고객의 ID와 일치해야 함
  • 도메인 무결성: 데이터베이스의 각 열에 저장되는 데이터의 유효성을 보장, 고객 데이터베이스의 나이 열에는 숫자만 저장되어야 함

3. SQL

1) SQL

  • 데이터베이스와의 통신을 위해 만들어진 언어

2) SQL 명령어

데이터 정의어 (DDL), 데이터 조작어 (DML), 데이터 제어어 (DCL), 트랜잭션 제어어 (TCL)

  • DDL: 데이터 베이스 테이블의 구조를 생성, 변경, 삭제하는 명령: CREATE, ALTER, DROP, RENAME, TRUNCATE
  • DML: 데이터베이스에서 데이터 검색, 데이터베이스 테이블에 새로운 행 삽입, 기존 행 수정, 삭제하는 명령: SELECT, INSERT, UPDATE, DELETE
  • DCL: 데이터베이스 관리자가 ㅂ보안, 무결성 유지, 병행 제어, 회복을 위해 사용하는 명령: GRANT, REVOKE
  • TCL: 데이터 조작어 명령어 실행, 취소, 임시저장할 때 사용하는 명령 (COMMIT, ROLLBACK, SAVEPOINT)

3) SELECT 검색문

  • SELECT, FROM, WHERE, GROUP BY, HAVING, ORDER BY
  • SQL집계 함수: AVG, COUNT, SUM, STDDEV, VARIAN, MIN

Section 3. 데이터베이스 활용

  1. 데이터베이스 솔루션

1) 데이터 웨어하우스

기업 내의 합리적 의사결정을 위해 기업 내부 및 외부의 데이터를 하나로 통합한 데이터 저장소

  • 데이터 웨어하우스 4가지 특성: 데이터의 통합성, 시계열성, 주제 지향적, 비소멸성
  • 데이터 마트: 데이터 웨어하우스로부터 특정 주제, 부서, 중심으로 구축된 소규모 단일 주제의 데이터 웨어하우스, 특정한 조직이나 특정한 업무팀에서 사용하는 것을 목적
  • BI: 데이터 웨어하우스에 저장된 데이터에 접근하여 의사결정에 필요한 정보를 얻고 활용
  • BA: BI보다 발전된 빅데이터 분석 방법, 미래 예측 기능과 통계분석, 확률 분석을 포함한 의사결정을 가능하게 함
  • EDW: 데이터웨어하우스를 전사적으로 확장한 솔루션
  • 데이터 레이크: 구조화되건 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소

- 장점: 데이터 통합, 탐색, 관리

- 응용 분야: 금융, 제조, 소매

2) 조직 관리 솔루션

  • SCM: 기업의 생산, 구매,유통 등 모든 공급망 단계를 최적화해서 고객이 원하는 제품을 원하는 시간과 장소에 제공할 수 있도록 하는 것

- SCM을 지원하는 다양한 기술: 기업 자원 계획 (ERP) 시스템, 데이터 분석, 공급망 관리 (SCM) 소프트웨어

- 주요 활동: 조달, 생산, 재고관리, 운송, 창고, 고객 서비스

  • CRM: 고객 관계 관리는 기업이 고객 관련 자료를 분석해 상품이나 서비스를 고객이 지속적으로 구매할 수 있도록 하기 위한 전략
  • e-CRM: 인터넷을 통하여 e-데이터 웨어하우스로 수집된 고객과 관련된 데이터를 웹마이닝으로 분석하는 것
  • KMS: 지식 관리 시스템은 조직 내의 인적 자원들이 축적한 개별적인 지식을 체계적으로 관리하는 시스템
  • ERP: 전사적 자원 관리는 기업 내의 생산, 물류, 영업, 회계, 구매, 재고, 주문, 고객, 서비스, 공급자와의 거래 등 업무 프로세스들을 통합적으로 관리
  • RTE: 실시간으로 효과적인 전략수집 및 의사결정을 수행하고 경영자원을 효과적으로 배분, 집행하여 경영성과를 도출하는 실시간 기업 모델
  • EAI: 기업 어플리케이션 통합은 전사적으로 상호 연관된 어플리케이션들을 연동하여 필요한 정보를 통합적으로 관리하는 솔루션
  • BPR: 기업/조직의 핵심적은 업무 프로세스에 대한 근본적인 사고 전환과 급진적인 재설계를 통하여 프로세스를 고객 지향적으로 최적화하며, 효율성을 제고하여 기존의 것과는 완전히 다른 새로운 구조를 정립하는 경영기법
  • 기타 데이터베이스 솔루션: 블록체인(네트워크에 연결되어 있는 모든 사용자 거래 내역 등의 데이터를 분산해서 저장하는 기술), 클라우드 컴퓨팅, EDI, ISP( 정보화 전략과 비전을 정의하고 로드맵을 수립하는 활동), ITS, RFID, SOA

2. OLTP, OLAP

1) OLTP: 온라인 거래 처리 형태로 호스트 컴퓨터와 접속된 여러 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 사용자에 되돌려 보내 주는 처리 방식

2) OLAP: 온라인 분석 처리로서 실시간 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술

Chapter 2. 데이터의 가치와 미래

Section 1. 빅데이터의 이해

  1. 빅데이터
  • 빅데이터는 기존의 일반적인 소프트웨어로는 수집, 저장, 분석이 어려운 규모의 데이터로 정형과 비정형으로 나눠지며 대용량 데이터를 활용해 새로운 가치나 인사이트를 추출할 수 있다

2. 빅데이터 특성

  • 데이터의 규모, 다양성, 속도, 가치, 신뢰성, 정확성, 휘발성

Section 2. 빅데이터 가치와 영향

  1. 빅데이터의 가치

1) 빅데이터의 활용

빅데이터 활용의 기본 3요소: 데이터, 기술, 인력

2) 빅데이터 가치 산정

데이터 활용방식, 새로운 가치 창출, 분석 기술의 발전으로 인해 빅데이터 시대에는 가치를 정확하게 측정하는 것이 어려움

  • 데이터의 활용 방식: 데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할 것인지 알 수 없음
  • 새로운 가치 창출: 빅데이터 시대에는 기존에 존재하지 않았던 새로운 기회를 창출함에 따라 그 가치를 바로 측정하기 어려움
  • 분석 기술의 발전: 분석 기술이 발전함에 따라 현재는 비록 가치가 없는 데이터라고 할지라도 미래에는 새로운 분석 기법의 등장으로 인해 거대한 가치를 만들어내는 재료가 될 가능성이 있음

2. 빅데이터 영향

  • 빅데이터를 다양한 산업 시장에 활용하여 일반인들은 개인 맞춤형 서비스를 저렴한 비용으로 이용
  • 적절한 시기에 필요로하는 정보를 얻어냄으로써 다양한 방식으로 기회비용 절약
  • 빅데이터 활용이 확산되면서 생활 전반에 걸쳐 다양한 방식으로 스마트화 됨

1) 빅데이터 출현 배경 및 변화

  • 출현 배경: 디지털화, 저장기술 및 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술 발전과 관련, 소셜 미디어 서비스, 영상 등 비정형 데이터의 확산과 데이터 처리 기술 발전이 있었음
  • 빅데이터 현상: 산업계에서 일어난 변화를 보면 빅데이터 현상은 양질 전환 법칙으로 설명할 수 있음

2) IoT 사물 인터넷

  • 인터넷으로 연결된 기계마다 통신 장치를 갖추고 있는 환경에서 사람 또는 기계끼리 자동으로 통신하는 기술로써 사물과 사람, 사물과 사물 간의 정보를 상호 소통하는 방식

3) 빅데이터 활용 분야

  • 연관 분석: 아이템 간에 의미있는 상관관계
  • 분류 분석: 문서를 분류하거나 조직을 그룹으로 나눌 때와 같은 문제 해결에 사용되는 분석기법
  • 유전 알고리즘: 최적화가 필요한 문제의 해결책을 자연 선택, 돌연 변이등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 알고리즘
  • 기계학습: 훈련 데이터로부터 학습을 통해 데이터가 가지고 있는 패턴을 학습해 '예측' 또는 '분류'하는 업무에 활용하는 알고리즘
  • 회귀분석: 독립변수값이 변경도미에 다라 종속 변수값이 어떻게 변화는 지를 통해 두 변수를 관계를 파악하는 방법, 선형 함수로 나타낼 수 있는 수치 데이터 분석에 사용됨
  • 감정분석: 특정 글을 작성한 사람의 긍정, 부정, 슬픔, 기쁨 등의 감정을 분석
  • 소셜 네트워크 분석 (사회 관계망 분석, SNA): 특정인과 다른 사람이 어느 정도의 관계인가를 파악할 때 사용하는 방법

- 중심성 분석 종류: 중심성은 한 행위자가 전체 연결망에서 중심에 위치하는 정도를 의미

- 분석방법 종류: 네트워크 그래프, 영향력 분석, 노드/엣지 리스트, 인접 행렬

  • 인공지능 용어: 전문가 시스템, 딥러닝, RNN, LSTM, GRU

Section 3. 빅데이터 위기요인과 통제방안

  1. 빅데이터 위기요인

1) 사생활 침해: 동의제에서 책임제로 전환, 개인정보 제공자의 동의를 통해 해결하기 보다 개인정보 사용자에게 책임을 지움

2) 책임 훼손의 원칙: 기존의 책임원칙 강화

3) 데이터의 오용: 항상 맞을 수 없음. 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안 도입이 필요

2. 개인정보 비식별화 기법

데이터셋에서 특정 개인을 식별할 수 있는 요소를 전부 또는 일부를 삭제하거나 다른 값으로 대처하는 방법으로 개인을 식별할 수 없도록 하는 방법

  • 비식별화 기법: 데이터 범주화, 데이터 마스킹, 가명 처리, 잡음 첨가, 총계처리 / 평균값 대체, 데이터 값 삭제

Section 4. 미래의 빅데이터

  1. 미래 사회와 빅데이터

1) 미래 사회의 특성: 창조력, 대응력, 통찰력, 스마트한 경쟁력 요구

2) 미래 빅데이터 활용: 다양성과 각 사회의 정체성, 연결성, 창조성 키워드가 대두됨. 데이터간 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 더욱 압도해가는 시대가 도래되고 있음

2. 빅데이터 활용 사례: 기업, 정부, 개인에서 활용됨

Chapter 3. 가치창조를 위한 데이터사이언스와 전략 인사이트

Section 1. 빅데이터 분석과 전략

  1. 데이터 분석과 사이언스

1) 데이터의 양보다 다양성

  • 빅데이터 분석에서는 데이터의 양보다 유형의 다양성이 중요
  • 대용량 데이터를 관리하는 것보다 다양한 데이터를 분석할 수 있는 능력이 중요

2) 전략적 통찰

  • 기업의 핵심 가치에 대한 전략적인 통찰력을 가져다주는 데이터 분석을 내재화하는 것이 어려움

3) 빅데이터 분석 성과가 높은 기업의 특징

  • 전체 조직에서 데이터 분석을 활용, 자체적으로 데이터 분석 역량을 갖추고 있음
  • 의사결정에 데이터 분석을 적극 활용
  • 데이터 분석에 따른 통찰력으로 업무를 추진

2. 빅데이터 전략

데이터 분석 애플리케이션 사례: 금융서비스, 정부, 서비스, 병원, 헬스케어, 운송업, 소매업, 제조업, 에너지, 온라인

Section 2. 빅데이터와 데이터 사이언스

  1. 데이터 사이언스
  • 데이터로부터 의미있는 정보를 추출해내는 학문

1) 데이터 사이언스의 한계

  • 인간의 해석이 개입되어 사람마다 전혀 다른 의미와 해석을 내릴 수 있음
  • 모든 분석은 가정에 근거. 분석의 정확성에 초점을 맞춰 분석하는 것이 아님
  • 모델의 능력에 대해 항상 의구심을 갖고 가정과 현실의 불일치에 대해 계속 고찰하며 분석 모델이 에측할 수 없는 위험을 살펴야 함

2) 빅데이터 가치 패러다임 변화

디지털화 - 연결 - 에이전시

데이터 사이언스 구성 요소: IT, 분석, 비즈니스 컨설팅

3) 데이터 분야 직무

  • 데이터 분석가: 데이터 분석 보고서 및 시각화 자료를 통해 비즈니스 결정에서 인사이트를 제공, 비즈니스 및 도메인 지식, 데이터 시각화 역량, 데이터 분석을 위한 통계적 지식, SQL 능력을 갖추어야 함
  • 데이터 사이언티스트: 머신 러닝 모델을 구축하기 위한 기본적인 코딩 스킬이 필요, 정형 비정형 데이터로부터 머신러닝 모델을 통해 인사이트 추출할 수 있어야 함, 통계적 지식, 머신러닝, AI에 대한 지식을 갖추어야 함
  • 데이터 엔지니어: 데이터 플랫폼과 데이터 파이프라인 아키텍처를 개발하고 운영, 소프트웨어 개발에 필요한 프로그래밍 능력이 있어야 함

2. 데이터 사이언티스트

1) 데이터 사이언티스트 필요 역량

  • 데이터 사이언티스트는 데이터 해커, 애널리스트, 커뮤니케이션, 신뢰받는 어드바이저등의 조합
  • 하드스킬(특정 업무 수행에 필요로 하는 스킬)과 소프트 스킬 능력(모든 직무에서 사용할 수 있는 스킬)을 동시에 갖추고 있어야 함

2) 효과적 분석 모델 개발을 위해 고려해야 하는 사항

  • 데이터 분석의 객관성에 항상 의문을 제기하고 분석몯렝 포함된 가정과 해석의 개입 등의 한계 고려
  • 범할 수 있는 의사 결정 오류

- 로직 (논리) 오류: 부정확한 가정을 하고 테스트를 하지 않는 것

- 프로세스 오류: 결정에서 분서고가 통찰력을 고려하지 않은 것, 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것, 대안을 진지하게 고려하지 않은 것


 

드디어 1회독이 끝났다. part 3부터 해서 그런지 앞부분은 조금 더 쉽게 느껴졌다. 파트 3를 중점으로 공부를 더 해야할 것 같다. 중간고사가 끝나면 자격증 시험에 더 몰두해서 공부할 수 있도록 해야겠다.