ADSP <1과목 정리>
[Chapter1. 데이터의 이해]
-
데이터의 특성
-
존재적 특성 : 객관적 사실
-
당위적 특성 : 추론, 예츨, 전망, 추정을 위한 근거
-
-
데이터의 유형
- 정성적 데이터(qualitative) : 언어, 문자 등과 같은 정확한 숫자가 아닌것
- 정량적 데이터(quantiative) : 정확한 수치, 도형, 기호 등
→ 정성적 데이터는 형태와 형식이 정해져 있지 않아 저장, 검색, 분석 시에 많은 기술과 투자가 수반된다
-
지식경영의 핵심 이슈
-
암묵지 : 학습, 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않음
→ 조직의 지식으로 공통화
-
형식지 : 문서나 메뉴얼처럼 형상화된 지식
→ 개인의 지식으로 연결화
-
-
데이터와 정보 관계
DIKW(Data-Information-Knowledge-Wisdom)
Data : A마트 100원, B마트는 200원에 연필 판매
Information : A마트 연필이 더 저렴
Knowledge : 상대적으로 저렴한 A마트에서 연필을 사야겠다
Wisdom : A마트의 다른 상품들도 B마트보다 저렴할 것이라 판단
-
데이터베이스의 일반적인 특징(SSIC)
- Shared Data(공용 데이터) : 여러 사용자가 공동으로 이용, 대용량화되고 구조가 복잡
- Stored Data(저장된 데이터) : 자기 디스크 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미. DB는 기본적으로 컴퓨터 기술을 바탕으로 한 것
- Integrated Data(통합된 데이터) : 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미. 데이터 중복은 관리상 복잡한 부작용 초래
- Changable Data(변화되는 데이터) : DB에 저장된 내용은 곧 DB의 현상태를 나타냄. 항상 변화하면서도 현재의 정확한 데이터 유지해야함
-
기업내부 데이터베이스
-
OLTP(On-Line Transaction Processing) : 데이터를 수시로 갱신하는 프로세싱
ex) 주문 입력 시스템, 재고 관리 시스템
-
OLAP(On-Line Analytical Processing) : 정보 위주의 분석 처리. 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터에 접근해 의사 결정에 활용가능한 정보를 얻게해줌
ex) 제품 판매 추이, 구매 성향 파악
-
[Chapter2. 데이터의 가치와 미래]
-
빅데이터 정의의 범주 및 효과
가트너의 3V
- Volume(양) : 데이터 규모 측면
- Variety(다양성) : 데이터의 유형과 소스 측면
- Velocity(속도) : 데이터의 수집과 처리 측면
데이터 변화(3V) → 기술 변화(클라우드 컴퓨팅 활용) → 인재, 조직 변화(새로운 인재 필요)
-
사용자 로그 정보
서비스 사용자와 광고주를 연결하는 비즈니스에서 가장 중요한 것은 사용자의 특성을 보다 정교하게 파악해 광고주가 도달하고자 하는 정확한 고객군을 만들어 내는 것. 이 목표를 위해 활용됨
-
빅데이터의 기능(비유)
- 산업혁명의 석탄, 철 : 서비스 분야의 생산성을 획기적으로 향상. 여러 분야의 혁명적 변화 가져올 것
- 21세기의 원유 : 경제 성장에 필요한 정보 제공. 산업 전반의 생산성 향상. 새로운 범주의 산업 만들 것
- 렌즈 : 데이터가 산업 발전에 영향을 미칠 것 ex)Ngram Viewer
- 플랫폼(공동 활용의 목적으로 구축된 유무형의 구조물) : 페이스북에서 서드파티 개발자들이 페이스북 위에서 작동하는 앱을 만들었음. 이런식으로 빅데이터가 다양한 서드파티 비즈니스에 활용될것
-
빅데이터가 만들어 내는 본질적인 변화
- 사전처리 → 사후처리
- 표본조사 → 전수조사
- 질 → 양
- 인과관계 → 상관관계 : 상관관계를 통해 특정 현상의 발생 가능성이 포착, 그에 따른 행동 하도록 추진됨
-
빅데이터 활용 기본 테크닉
- 연관 규칙 학습 : 변인들 간 주목할 만한 상관관계가 있는지 찾아냄
- 유형분석 : 문서 분류하거나 조직을 그룹으로 나누는 등의 분류에서 사용
- 기계 학습 : 훈련 데이터로부터 예측
- 회귀 분석 : 독립 변수를 조작해 종속변수가 어떻게 변하는 지 보고 변인간 관계 파악
- 감정 분석 : 감정을 분석함
- 소셜 네트워크 분석 : 특정인과 타인이 몇 촌 관계인지를 분석
- 유전자 분석 : 최적화가 필요한 문제의 해결책을 메커니즘을 통해 진화시킴
-
위기요인 & 통제방안
- 위기요인
- 사생활 침해
- 책임 원칙 훼손 : 데이터분석 결과를 가지고 성급하게 범죄자 취급X
- 데이터 오용 : 잘못된 지표를 활용한 분석 결과는 좋지 않은 결말 초래
- 통제방안
- 동의에서 책임으로
- 결과 기반 책임 원칙 고수
- 알고리즘 접근 허용 : 알고리즘에 대한 접근권 제공하여 알고리즘의 부당함을 반증할 수 있는 방법 명시해 공개
- 위기요인
[Chapter3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트]
-
빅데이터의 회의론
- 투자효과를 거두지 못했던 부정적 학습효과 (CRM사례)
- 빅데이터 성공사례가 기존의 것을 포함
→ 전략과 비즈니스의 핵심 가치에 집중, 관련된 분석 평가 지표를 개발, 효과적으로 시장과 고객 변화에 대응할 수 있도록 해야함
→ 일차원적인 분석X
-
Data-Science
데이터 사이언스는 정형, 비정형 데이터를 모두 다룸. 분석에서 구현하고 전달하는 전체 과정을 모두 포함. 데이터 사이언티스트는 비즈니스의 성과를 좌우하는 핵심 이슈에 답을 하고, 사업의 성과를 견인해 나아가야 함
-
Data-Scientist의 요구 역량
- Hard Skill
- 빅데이터 이론적 지식
- 분석 기술에 대한 훈련
- Soft Skill
- 통찰력 있는 분석
- 설득력 있는 전달
- 다분야간 협력
- Hard Skill
-
빅데이터 분석 기술
-
Map Redue(맵 리듀스) : 클라우드 분산 병렬처리 컴퓨팅 중 빅데이터와 같은 대용량 데이터의 처리비용을 획기적으로 줄인 방식
-
데이터양의 단위
바이트(B) → 킬로바이트(KB) → 메가바이트(MB) → 기가바이트(GB) → 테라바이트(TB) → 페타바이트(PB) → 엑사바이트(EB) → 제타바이트(ZB) → 요타바이트(YB)