1.1 Text Analytics Toolbox
1.1.1 Work Flow
(1) Access and Explore Data : Word, pdf, txt, html 파일 또는 웹 페이지의 데이터를 가져오는 것부터 시작한다. 웹 페이지의 경우 url만 있어도 OK.
(2) Preprocess Data : 가져온 데이터의 전처리를 거친다.
-
Clean-up Text : 데이터를 분석하기 좋게 가공한다. 대문자를 소문자로 바꾸거나, 기호를 없애고, 동사의 경우 동사원형으로 바꾼다. 문장을 단어라 불리는 token 단위로 쪼개는 것을 tokenization이라고 한다.
-
Convert to Numeric : 텍스트 데이터를 numeric data로 변환한다. 단어의 빈도 수를 체크한다.
(3) Develop Predictive Models
- World-Embedding
- Machine Learning
- Deep Learning