빅데이터분석기사 준비 D+3
2023. 11. 16. 16:16ㆍ주빵쓰의 데이터 이야기
반응형
세상을 읽는 새로운 언어, 빅데이터-조성준
문서의 전처리 단계는 다음과 같다.
1. 정형화되어 있는 데이터로부터 도메인에서 사용되는 단어를 추출해서 사전에 추가하는 것
2. 이미 구축된 사전을 이용하고, 두 가지 문자열 모듈을 활용하여 문서를 유의미한 말뭉치로 나누기, 동의어와 약어 처리하기.
3. 불용어 제거하기
4. 엔그램 처리(연속된 단어가 모여 하나의 객체를 이룰 경우 하나의 용어로 간주하기)
반응형
'주빵쓰의 데이터 이야기' 카테고리의 다른 글
빅데이터분석기사 준비 D+5 (일기) (0) | 2023.11.30 |
---|---|
빅데이터분석기사 준비 D+4 (매개변수 최적화) (2) | 2023.11.27 |
빅데이터분석기사 준비 D+2 (0) | 2023.11.16 |
빅데이터분석기사 준비 D+1 (0) | 2023.11.16 |
통계와 빅데이터 (0) | 2023.11.16 |