머신러닝기반 빅데이터 응용 전문가과정 - 3
(2020.07.05)
오늘은 dplyr의 나머지 함수들에 대해서 배웠다. 첫번째로 mutate는 새로운 속성을 추가하여 보여주는 함수이다.
따라서 원본을 살리고 원본에 새로운 속성을 추가하여 보여준다. 두번째는 group_by와 summarise인데 group_by는 매개변수로 들어온 값을 기준으로 그룹화해주고 summarise는 요약 통계표를 산출해 준다.
여기서 summarise와 mutate의 차이는 mutate는 원본을 살리지만 summarise는 새로운 표를 만들어 출력해준다.
그 후 지금까지 배웠던 것을 다른 클래스에서 보았던 퀴즈로 정리해 보았다.
1. 데이터에서 상위 6개를 행으로 추출하는 함수와 하위 6개를 추출하는 함수를 작성하시오.
→ 상위 행 6개 추출은 정렬시킨 후 head(6)으로 하위 6개는 tail(6)으로 가능하다.
2. 현재 내 프로젝트 경로의 파일 목록을 볼 수 있는 명령어는?
→ list.files()
3. TextMining과 WordCloud에 대해서 서술하시오.
→ 먼저 텍스트 마이닝은 정형 및 비정형, 반정형 데이터에 대해서 자연어 처리기술과
문서 처리기술을 적용하여 유용한 정보를 추출, 가공하는 목적으로 사용하는 기술이다.
또한 WordCloud는 이러한 텍스트 마이닝의 결과를 시각화하여 구름 모양으로 보여주는 것이다.
4. 데이터 전처리에 사용된는 패키지 이름은?
→ dplyr
5. 정형데이터와 비정형데이터의 차이점에 대해 서술하시오.
→ 정형데이터와 비정형데이터의 차이는 형태가 정해지면 정형, 정해져 있지 않으면 비정형이다.
비정형데이터는 이미지, 텍스트, sound가 있다.
6. Vector를 생성하는 함수는?
→ c()로 combine을 의미한다.
7. dplyr패키지내에서 파생변수를 생성하는 함수는?
→ mutate()
8. dplyr패키지내에서 조건에 따라 행을 추출하는 함수는?
→ filter()
9. dplyr패키지내에서 속성을 추출하는 함수는?
→ select()
10. dplyr패키지내에서 정렬하는 함수는?
→ arrange()로 데이터 프레임을 정렬하고 벡터를 정렬시키는 것은 sort()함수이다.