2024. 1. 27. 19:02ㆍ주빵쓰의 데이터 이야기
데이터베이스: 데이터의 집합
데이터베이스의 특징: 1) 통합된 데이터, 2) 저장된 데이터, 3) 공용 데이터, 4) 변화되는 데이터
데이터베이스 설계 과정: 1) 요구 분석 - DBMS 설정 - 2) 개념적 설계 3) 논리적 설계 - 정규화 - 4) 물리적 설계 5) 구현
빅데이터 7V: Volume, Variety, Velocity, Validity, Value, Veracity(신뢰성), Volatility(휘발성)
가트너의 비즈니스 분석 4가지 유형: 1) 기술분석 2) 진단분석 3) 예측분석 4) 처방분석
데이터 유형: 구조에 따라 정형데이터/반정형데이터/비정형데이터
반정형데이터가 중요함: 스키마 구조 형태를 가지고 메타데이터를 포함하며 값과 형식이 일관되지 않은 데이터(구조에 따라 저장된 데이터지만 정형데이터와 달리 데이터 안에 구조에 대한 설명이 존재함. 구조를 파악하는 파싱과정 필요함)
반정형데이터의 예) JSON, XML, HTML, 웹로그, 알람, RSS, 센서 데이터 등
ETL: Extraction, Trasformation, Loading
각각의 시스템에서 발생된 데이터의 형태가 달라 데이터웨어하우스에 맞게 적재하기 위해 변형해서 적재하는 것. 데이터마트, OLAP, OTLD의 운영 시스템에 적재하기 위해서도 필요함.
데이터 저장: 정형 데이터는 관계형 데이터베이스(RDB), 반정형 데이터는 NoSQL, 비정형 데이터는 분산 파일 시스템(HDFS)에 주로 저장한다.
RDBMS: 관계형 데이터를 저장, 수정, 관리할 수 있게 하는 데이터베이스, SQL(관계 표준 질의어)문장을 통해 데이터베이스 생성, 수정, 검색 등 서비스 제공 / 도구: Oracle, MSSQL, MYSQL
NoSQL: RDBMS와는 달리 데이터 관계 정의하지 않음. 분산형구조, 고정되지 않는 테이블 스키마, 실시간 분석가능 / 도구: MongoDB, Cassandra, HBase, Redis
HDFS: 분산파일시스템이란 네트워크를 이용해 접근하는 파일 시스템 / 도구: HDFS
데이터 웨어하우스: 다양한 원천 시스템으로부터 데이터를 수집하여 주제 영역별로 데이터를 통합, 관리하는 데이터 저장 플랫폼.
데이터 마트: 데이터웨어하우스에 수집된 데이터를 분석에 효율적인 구조로 재집계(특정유형, 특정업무기능, 특정업무단위로 제한)한 데이터 모델.
데이터웨어하우스 특징: 1) 주제지향성, 2) 통합성, 3)시계열성, 4) 비휘발성(데이터베이스의 저장된 데이터는 삽입, 삭제, 수정 등 작업이 자주 발생하지만, 데이터웨어하우스는 검색작업만 수행되는 읽기전용 데이터)
데이터레이크: 데이터분석을 위해 추출할 때 변환하여 분석할 필요가 없는 원시 데이터셋 저장소. 실시간 분석에 활용가능
'주빵쓰의 데이터 이야기' 카테고리의 다른 글
데이터 분석가의 숫자유감 (0) | 2024.01.08 |
---|---|
빅데이터분석기사 준비 D+5 (일기) (0) | 2023.11.30 |
빅데이터분석기사 준비 D+4 (매개변수 최적화) (2) | 2023.11.27 |
빅데이터분석기사 준비 D+3 (0) | 2023.11.16 |
빅데이터분석기사 준비 D+2 (0) | 2023.11.16 |