목록Machine Learning/머신러닝기반 빅데이터 응용 전문가과정 (14)
SSONG Cloud

(2020.07.02) 오늘 오전에는 어제 다하지 못한 워드클라우드 만드는 실습을 하고, 오후에는 머신러닝 과정의 각각의 단계에 대해 더 알아보았다. 먼저 어제 정렬까지 끝낸 데이터를 head라는 함수를 통해 상위 n개의 단어만 추출하여 새로운 변수에 저장한다 그 후 이전에 설치했던 wordcloud2 라이브러리의 wordcloud2라는 함수를 통해 워드 클라우드를 작성한다. 대통령 연설문의 경우 정제된 데이터들만 있었기 때문에 따로 단어를 삭제하거나, 수정하는 데이터 전처리 과정이 따로 들어가지 않았다. 하지만 카카오톡 대화내용의 경우 변형된 단어들이 많았기 때문에 부가적인 단계들이 필요했다. 먼저 불용어를 처리하기 위해서 gsub()을 사용한다. 이때 gsub(바꾸고 싶은 단어, 교체할 단어, 담..
(2020.07.01) R에 본격적으로 들어가기 전에 어제처럼 빅데이터가 무엇인지에 대해 먼저 배웠다. 빅데이터는 장기적으로 저장되고 분석되는 유의미한 데이터를 말한다. 여기서 "유의미한"이라는 단어가 중요하다고 하셨다. 그래서 그 특성으로 velocity(속도), volume(규모), variety(다양성), Veracity(정확성), Value(가치)가 있어야 한다고 했다. 그리고 머신러닝에 대해 배웠는데 머신러닝은 데이터를 이용하여 데이터 특성과 패턴을 학습하여, 그 결과를 바탕으로 미지의 데이터에 대한 미래결과를 예측하는 것을 말한다. 그 종류에는 지도학습, 비지도학습, 강화학습이 있다. 첫번째로 지도학습은 데이터에 대한 Label 즉 명시적인 답이 주어진 상태에서 컴퓨터를 학습시키는 방법..