less than 1 minute read



1.1.1 Work Flow


  (1) Access and Explore Data : Word, pdf, txt, html 파일 또는 웹 페이지의 데이터를 가져오는 것부터 시작한다. 웹 페이지의 경우 url만 있어도 OK.

  (2) Preprocess Data : 가져온 데이터의 전처리를 거친다.

  • Clean-up Text : 데이터를 분석하기 좋게 가공한다. 대문자를 소문자로 바꾸거나, 기호를 없애고, 동사의 경우 동사원형으로 바꾼다. 문장을 단어라 불리는 token 단위로 쪼개는 것을 tokenization이라고 한다.

  • Convert to Numeric : 텍스트 데이터를 numeric data로 변환한다. 단어의 빈도 수를 체크한다.

  (3) Develop Predictive Models

  • World-Embedding
  • Machine Learning
  • Deep Learning