빅데이터분석기사 준비 D+3

2023. 11. 16. 16:16주빵쓰의 데이터 이야기

반응형

세상을 읽는 새로운 언어, 빅데이터-조성준

문서의 전처리 단계는 다음과 같다.

1. 정형화되어 있는 데이터로부터 도메인에서 사용되는 단어를 추출해서 사전에 추가하는 것

2. 이미 구축된 사전을 이용하고, 두 가지 문자열 모듈을 활용하여 문서를 유의미한 말뭉치로 나누기, 동의어와 약어 처리하기.

3. 불용어 제거하기

4. 엔그램 처리(연속된 단어가 모여 하나의 객체를 이룰 경우 하나의 용어로 간주하기)

반응형