주빵쓰의 데이터 이야기(9)
-
빅데이터분석기사 준비 D+6
데이터베이스: 데이터의 집합 데이터베이스의 특징: 1) 통합된 데이터, 2) 저장된 데이터, 3) 공용 데이터, 4) 변화되는 데이터 데이터베이스 설계 과정: 1) 요구 분석 - DBMS 설정 - 2) 개념적 설계 3) 논리적 설계 - 정규화 - 4) 물리적 설계 5) 구현 빅데이터 7V: Volume, Variety, Velocity, Validity, Value, Veracity(신뢰성), Volatility(휘발성) 가트너의 비즈니스 분석 4가지 유형: 1) 기술분석 2) 진단분석 3) 예측분석 4) 처방분석 데이터 유형: 구조에 따라 정형데이터/반정형데이터/비정형데이터 반정형데이터가 중요함: 스키마 구조 형태를 가지고 메타데이터를 포함하며 값과 형식이 일관되지 않은 데이터(구조에 따라 저장된 데이..
2024.01.27 -
데이터 분석가의 숫자유감
데이터를 직장 생활에 적용하고 활용하는 사례를 만화와 글로 잘 설명한 책이었다. 책을 읽으면서 가장 인상깊은 내용 한 쪽을 가져왔다. 숫자의 차이는 절대적인 것 처럼 보이는데, 이를 왜 여러 면으로 고민해야할까? 숫자는 한 번도 절대적인 적이 없다. '사과 1개'라는 명확하다고 생각하는 숫자의 절대성도 사실은 절대적이지 않다. 작은 사과 1개든, 썩은 사과 1개든, 한 덩어리여서 '한 개'라고 센다. 사과를 봉지에 넣었다면 봉지 안에 몇 개의 사과가 있는지 신경 쓰지 않고 '사과 한 봉지' 라고 한다. 이런 간단한 숫자에도 이미 전제가 적용된다. 특정 시간에 남겨진 기록인 데이터는 더욱 고려할 사항이 많다. 데이터에는 기록 전에 형태를 잡는 과정부터 특정 정의와 합의를 포함한 많은 전제가 들어가 있다. ..
2024.01.08 -
빅데이터분석기사 준비 D+5 (일기)
오늘은 빅데이터 관련한 내용은 아니고 그냥 내 일기다. 요즘 컨디션이 많이 안좋아진것 같아 몸 여기저기가 아프다ㅠㅠ... 아침에 6시 40분쯤 기상, 씻고, 준비하고 학교에 가져갈 점심 도시락 싸서 7시 55분쯤 출발. 학교가는 지하철 안에서 책읽기. 학교에 도착해서 업무보고 가르치고 일 하다가 중간에 짬나면 통계 공부함. 점심시간엔 싸 온 도시락 먹고 바로 설거지 함. 퇴근시간에 지친 몸을 이끌고 퇴근, 퇴근하고 바로 집안일. 설거지 하거나 저녁 준비 설거지나 저녁준비 하다가 6시 되면 필라테스 가야해서 필라테스 갔다 옴. 갔다 와서 나 저녁 해먹고, 내일 점심 도시락 미리 준비해놓음. 설거지하고 나도 씻고 눈 뜨면 어느새 9시~9시 30분쯤 되어있음. 아무튼 그러고 자리에 앉아 10시정도 까지 빅데이..
2023.11.30 -
빅데이터분석기사 준비 D+4 (매개변수 최적화)
실제로 D+4는 아니지만.. 그냥 연속성을 위해 이렇게 적는걸로 어제는 시민도서관에서 R을 이용한 데이터분석 책을 사서 R과 Rstudio를 설치하고 한번 다뤄봤다. 책에서 시키는대로 해봤는데, 아직 배우는 중이긴 하다. 음 김득신의 마음가짐을 가지도록. 집에 와서 빅데이터분석기사 공부를 조금(아주조금) 했다. 매개변수 초매개변수(하이퍼파라미터) - 데이터로부터 학습에 의해 결정 - 예) 인공신경망의 가중치(weight), 편향(bias) - 최적화방법: GD, SGD, 모멘텀, Adagrad, RMSProp, Adam - 분석가가 임의로 설정 - 예) 학습률, 은닉층 수 - 최적화 방법: 랜덤서치, 그리드서치, 베이지안최적화 그중 매개변수의 최적화 방법은 다음과 같다. 1) GD - 2) SGD - 3..
2023.11.27 -
빅데이터분석기사 준비 D+3
세상을 읽는 새로운 언어, 빅데이터-조성준 문서의 전처리 단계는 다음과 같다. 1. 정형화되어 있는 데이터로부터 도메인에서 사용되는 단어를 추출해서 사전에 추가하는 것 2. 이미 구축된 사전을 이용하고, 두 가지 문자열 모듈을 활용하여 문서를 유의미한 말뭉치로 나누기, 동의어와 약어 처리하기. 3. 불용어 제거하기 4. 엔그램 처리(연속된 단어가 모여 하나의 객체를 이룰 경우 하나의 용어로 간주하기)
2023.11.16 -
빅데이터분석기사 준비 D+2
세상을 읽는 새로운 언어, 빅데이터-조성준 머리에 잘 입력이 안되어서 정리를 하고자 한다. Task: 인사이트를 도출하기 위해 데이터에 수행하는 작업 묘사 > 진단 > 예측 > 처방 1단계: 묘사 2단계 진단 -시각화: 스팟파이어(spotfire), 태블로(TABleau) 예) 에어컨 실내기의 24시간 동안의 작동 -연관분석: 어 프라이오리(A Priori) 예) 오븐과 연관검색어 '실패', '엄마', '간식' 등 -클러스터링: K-평균 군집화(K-Means-Clustering), 계층적 군집화(Hierarchial Clustering), SOM 신경망(Self Organizing Map Neural Network) 예) 신용카드사의 우수고객 30명 성향별로 나누기 3단계: 예측 -예측, 분류 둘 다: ..
2023.11.16