반응형
1. 데이터의 정의
- 데이터(data)라는 용어는 1646년 영국 문헌에 처음 등장 → 라틴어인 dare(주다)의 과거 분사형으로 '주어진 것'이라는 의미로 사용
- 1940년대 이후 컴퓨터 시대 시작과 함께 자연과학, 경영학, 통계학 등 다양한 사회과학이 진일보하며, 데이터의 의미는 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화
- 데이터는 추론과 추정의 근거를 이루는 사실 (옥스퍼드 대사전)
- 데이터는 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것으로 설명됨
2. 데이터의 특정
- 존재적 특성: 객관적 사실 (fact, raw material)
- 당위적 특성: 추론, 예측, 전망 추정을 위한 근거(basis)
👉 수요조사나 실험, 검사 측정 등을 통해 데이터를 수집, 축적하고 다양한 방법으로 분석하여 간단한 마케팅 리포트부터 심도있는 논문, 미래 예측을 위한 경졍 전략/정책을 수립하는 일련의 가치 창출과정에서 가장 기초를 이루는 것이 데이터
3. 데이터의 유형
구분 | 정성적 데이터 (Qualitative data) | 정량적 데이터 (Quantitative data) |
형태 | 언어, 문자 등 | 수치, 도형, 기호 등 |
특징 | - 저장, 검색, 분석에 많은 비용 소모 - 주관적 내용 - 통계 분석 어려움 |
정형화된 데이터로 비용 소모 적음 - 객관적 내용 - 통계분석 용이 |
ex | “회사 매출이 증가함” | 나이, 몸무게, 매출, 주가 |
정형 데이터 | 반정형 데이터 | 비정형 데이터 |
형태(고정된 필드) O | 형태(스키마, 메타데이터) O | 형태 X |
연산 가능 | 연산 가능 | 연산 불가능 |
주로 관계형 데이터베이스(RDBMS)에 저장됨 | 주로 파일 시스템에 저장됨 | 주로 NoSQL에 저장됨 |
데이터 수집 난이도 下 | 데이터 수집 난이도 中 | 데이터 수집 난이도 上 |
데이터 처리 난이도 下 | 주로 API 형태로 제공되어 데이터처리 기술(파싱) 요구됨 | 데이터 처리 난이도 上 |
ex. 관계형 데이터베이스(RDBMS), 스프레드시트, CSV | ex. XML, HTML, JSON, log형태(웹로그, 센서 데이터) 등 | 소셜데이터(twitter, facebook), 영상, 이미지, 음성, 텍스트(word, PDF) 등 |
4. 암묵지와 형식지
- 암묵지 (: 개인에게 축적된 내면화internalization된 지식 → 조직의 지식으로 공통화socialization) : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 사회적으로 중요하지만 다른 사람에게 공유되기 어려움 ex. 김장 김치 담그기, 자전거 타기
- 형식지 (: 언어, 기호, 숫자로 표출화externalization된 지식 → 개인의 지식으로 연결화combination) : 문서나 매뉴얼처럼 형상화된 지식 전달과 공유가 용이 ex. 교과서, 비디오, DB
- 내면화: 형식지를 학습하여 구체적 개인 지식으로 흡수
- 공통화: 경험 공유를 통한 새로운 암묵지 창조
- 표출화: 암묵지에서 구체적 개념 도출
- 연결화: 형식지의 완성도를 높여 지식체계로 전환
5. DIKW
- 데이터 data: 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실, 존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 ex. A마트는 100원에, B마트는 200원에 연필을 판매
- 정보 information: 데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가 도출된 것, 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 ex. A마트의 연필이 더 저렴
- 지식 knowledge: 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것, 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 ex. 상대적으로 저렴한 A마트에서 연필을 사기로 결정
- 지혜 wisdom: 지식의 축적과 아이디어가 결합된 창의적인 산물 ex. A마트의 다른 상품들도 B마트 보다 쌀 것이라고 판단
반응형
'Data Science' 카테고리의 다른 글
DBMS의 종류 | Database Management System, RDBMS, OODBMS, NDBMS, HDBMS (0) | 2022.02.26 |
---|---|
OLTP와 OLAP | data processing system, 데이터베이스(database) | ADsP, ADP (0) | 2022.02.26 |
[Data Science from Scratch] Ch4. Linear Algebra (0) | 2021.12.08 |
[Data Science from Scratch] Ch3. Visualizing Data (0) | 2021.12.08 |
[Data Science from Scratch] Ch2. A Crash Course in Python (0) | 2021.12.03 |
댓글