썸네일 DBMS의 종류 | Database Management System, RDBMS, OODBMS, NDBMS, HDBMS 💡DBMS(Database Management System) : 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어 : 데이터베이스를 구축하는 특을 제공하며, 효율적인 데이터 검색, 저장 기능 등을 제공 ex) MySQL, PostgreSQL, Microsoft SQL Server, Oracle Database, Micro Access, MongoDB 💡DBMS의 종류 관계형 DBMS (RDBMS, Relational DBMS) : 각 relation(table)은 하나의 entity(ex. 고객) 타입을 대표, row(tuple)은 그 entity 종류의 instance(ex. ‘LEE’)를 대표, column(attribute)는 그 instan..
썸네일 OLTP와 OLAP | data processing system, 데이터베이스(database) | ADsP, ADP 데이터를 처리하는 시스템의 2가지 - OLTP, OLAP 💡OLTP(On-Line Transaction Processing) OLTP는 데이터베이스에서의 수많은 사용자가 사용하는 트랜잭션을 실시간으로 처리하는 시스템이다. 즉, 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태이다. 데이터베이스의 데이터를 수시로 갱신하는 프로세싱이다. ex) 비밀번호 변경, 회원가입, 주문입력시스템, 재고관리시스템, 주문결재, ATM 입출금 💡OLAP(On-Line Analytical Processing) 정보 위주의 분석 처리 과정 시스템을 의미하며, 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻는 ..
썸네일 데이터의 이해(데이터와 정보) | 정성/정량적 데이터 | 정형/반정형/비정형 데이터 | 암묵지, 형식지 | DIKW 피라미드 | ADP, ADsP 1과목 1. 데이터의 정의 데이터(data)라는 용어는 1646년 영국 문헌에 처음 등장 → 라틴어인 dare(주다)의 과거 분사형으로 '주어진 것'이라는 의미로 사용 1940년대 이후 컴퓨터 시대 시작과 함께 자연과학, 경영학, 통계학 등 다양한 사회과학이 진일보하며, 데이터의 의미는 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화 데이터는 추론과 추정의 근거를 이루는 사실 (옥스퍼드 대사전) 데이터는 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것으로 설명됨 2. 데이터의 특정 존재적 특성: 객관적 사실 (fact, raw material) 당위적 특성: 추론, 예측, 전망 추정을 위한 근거(basis) 👉 수요조사나 실험, 검사 측정 등을 통해 데이터를 ..
썸네일 [Data Science from Scratch] Ch4. Linear Algebra Linear algebra is the branch of mathematics that deals with vector spaces. 📌 Vectors 추상적으로, vector는 서로 더하고, scalar를 곱하고, 새로운 벡터를 생성할 수 있는 객체이다. 구체적으로는, vector는 어떤 유한한 차원의 공간에서의 점이다. 지금까지 보았던 data를 vector라고 생각하지 않겠지만, 그 data들은 numeric data를 대표할 수 있는 좋은 예가 된다. 예를 들어, 많은 사람들의 키, 몸무게, 나이 데이터를 가지고 있을 때, 그 데이터는 3차원의 vector로 다룰 수 있다. 혹은 학생들의 시험 성적 데이터를 4차원의 vector(exam1, exam2, exam3, exam4)로 다룰 수 있을 것..
썸네일 [Data Science from Scratch] Ch3. Visualizing Data 데이터 시각화에는 두가지 목적이 있다. To explore data - 데이터 탐색 To communicate data - 데이터 전달 matplotlib from matplotlib import pyplot as plt years = [1950, 1960, 1970, 1980, 1990, 2000, 2010] gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.5, 10289.7, 14958.3] #create a line chart, years on x-axis, gdp on y-asix plt.plot(years, gdp, color='green', marker='o', linestyle='solid') #add a title plt.title('Nominal GDP') #a..
썸네일 [Data Science from Scratch] Ch2. A Crash Course in Python [Data Science from Scratch (Joel Grus, O'Reilly)]를 읽고 이해한 바를 바탕으로 작성된 내용입니다. The Not-So-Basics Sorting x = [4, 1, 2, 3] y = sorted(x) #is [1, 2, 3, 4], x is unchanged x.sort() #now x is [1, 2, 3, 4] (x is changed) print(x, y) [1, 2, 3, 4] [1, 2, 3, 4] sorted(arg) function은 argument의 정렬된 값을 return하고 argument의 값 자체를 바꾸진 않는다. sort() function은 return하는 값 없이, method가 적용되는 값 자체를 바꿔준다. A function is a ..
썸네일 python scraping 연습 (한빛미디어 도서리스트 scraper 만들기) 이 글은 을 읽고 이해한 내용을 바탕으로 정리한 글입니다. 웹 크롤링과 스크레이핑 《파이썬을 이용한 웹 크롤링과 스크레이핑》은 파이썬을 이용한 데이터 수집과 분석을 위해 입문에서 실전까지 상세하게 설명한 책입니다.기본적인 크롤링과 API를 활용한 데이터 수집은 물론 book.naver.com import re import sqlite3 from urllib.request import urlopen from html import unescape 💡main() def main(): """ 메인 처리 fetch(), scrape(), save() 함수 호출 """ html = fetch('http://www.hanbit.co.kr/store/books/full_book_list.html') books = sc..
썸네일 👩‍💻 링크타고 브랜드 타이틀 크롤링 import os import re import pandas as pd import pickle import collections import numpy as np import math from ast import literal_eval from time import gmtime, strftime import re import time from tqdm import tqdm from bs4 import BeautifulSoup # Scrapping import selenium from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDrive..
썸네일 python 가상환경 사용하기 (conda) python 가상환경을 사용하는 방법은 venv를 이용하는 방법도 있고, conda를 이용하는 방법도 있지만, 회사에서 conda를 이용해서 가상환경을 만들어서 사용하라고 지시받고 배웠으니, macOS terminal에서 conda를 이용해 가상환경을 만드는 방법을 정리해보려고 한다. (나는 이전까지 팀으로 일하는 경우가 거의 없다보니 가상환경의 필요성도 느끼지 못했고, 그냥 다 local에서 작업했다보니 가상환경을 만들고 사용하는 방법을 전혀 몰랐다,,ㅜㅜㅜ 반성,,,) J님께서 몇 번이나 가르쳐 주셨는데, 내가 자꾸자꾸 까먹고 헷갈려서 정리,, 1. 가상 환경을 만들기 conda create -name eunnen_env 가상환경 이름(eunnen_env)을 지정하여 가상환경을 create한다. co..
🌐 웹페이지 인코딩 방식 추출하기 이 글은 를 읽고 이해한 바를 바탕으로 정리하여 작성되었습니다. 표준 라이브러리인 urllib.request 모듈을 사용하여 urlopen함수에 url을 넣어 웹페이지를 추출할 때, 반환되는 객체인 HTTPREsponse에서 read()메서드(HTTPResponse.read())로 추출된 응답 본문의 값은 byte 자료형이다. 따라서 문자열 자료형으로 다루려면 문자 코드를 지정해서 decoding해야 한다! 당연히, 인코딩된 방식으로 다시 디코딩을 해줘야하는데, 이때 웹페이지 문서가 인코딩된 방식을 알기 위해 추출하는 방법을 2가지로 정리해보겠다. 첫번째, HTTP 헤더에서 인코딩 방식을 추출하는 방법이다. HTTP 응답의 Content-Type 헤더에서 인코딩 방식을 추출한다. 일반적으로, 한국어가 포..
썸네일 📊 KDD, SEMMA, CRISP-DM 도대체 뭐가 달라? 빅데이터 분석 대표 방법론 3가지 파헤치기! 빅데이터 분석의 방법론에는 대표적으로 3가지가 있다. KDD, SEMMA, CRISP-DM 오늘은 이 3가지에 대해서 공부했다. 조금 추상적..?ㅇ?ㅇ 이라는 생각이 들어서 공부할 때 도대체 뭐가 어떻게 다르다는 거지.... 말만 조금씩 바꿔놓은 것 같은데,,, 라고 생각이 들었는데, 그럼에도 확실히 방법론마다 특징과 어떤 경우에 많이 쓰이는지에 대한 핵심 포인트들이 있으므로 그 내용을 중심으로 기술해보겠다! 1. KDD : (Knowledge Discovery in Database) 지식 탐색 중심 : 데이터를 중심으로 insight 발글을 위한 절차와 단계를 정의한 데이터 마이닝 기법 프로파일링 기술 기반 통계적 패턴, 지식 발견 인사이트 발굴(현황분석을 통한 요건 정의) '데이터 마이닝'이라는 용어..