목록Machine Learning/머신러닝기반 빅데이터 응용 전문가과정 (14)
SSONG Cloud

(2020.07.20) 오늘은 오전과 오후 모두 선형모델에 대해 배웠다. 선형모델을 학습하는 것은 y = wx + b 함수를 찾아내는 것으로 w와 b를 알아내는 것이라 볼 수 있다. 선형모델으로 advertising분석한것 쓰기 오후에는 더 많은 특성을 가지고 있는 bike_demand 자료를 분석하는 활동을 했다. 이 train 데이터는 datatime, season, holiday, workingday, weather, temp, atemp, humidity, windspeed, casual, registered,count로 구성되어 있고 자세한 설명은 다음과 같다. ① datatime = 날짜 ② season = 계절(1-봄 / 2-여름 / 3-가을 / 4-겨울) ③ holiday..

(2020.07.17) 오늘 오전에는 과대적합, 과소적합, 일반화에 대해 배우고 붓꽃 분류와 유방암 진단을 knn 알고리즘을 통해 머신러닝 실습을 해보았다. 먼저 과대적합, 과소적합, 일반화에 대해 말해보면 다음과 같다. 과대적합(Overfitting): 훈련세트에 너무 맞춰져 있어 테스트 세트의 성능저하 과소적합(Underfitting): 훈련세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트에서 모두 성능 저하 일반화(Generalization): 훈련세트로 학습한 모델이 테스트 세트에 대해 정확히 예측하도록 하는것 따라서 머신러닝의 목표를 일반화 성능이 최대화 되는 모델을 찾는 것이라 볼 수 있다. 이를 위해 주어진 훈련데이터의 다양성을 보장하여 다양한 데이터 포인트를 골고루 나타내어야 한..

(2020.07.16) 먼저 오전에는 XOR 연산을 KNN 알고리즘을 통해 학습 시켜보았다. XOR 연산에 대해 먼저 간단하게 말하자면 서로 값이 같으면 0, 다르면 1을 결과값으로 주는 연산이다. 예를 들면 다음과 같다. (0,0) → 0 (0,1) → 1 (1,0) → 1 (1,1) → 0 이러한 규칙에 따라 연산이 진행되고 이를 학습시켜보았다. confusion matrix에 대해 배웠다. 이 행렬은 분류(classification) 문제의 경우 값의 크기를 이해하기 위해 혼돈 행렬의 형태로 성능을 나타내게 된다. 이 행렬은 예측과 실제의 값에 따라 class를 나눌 수 있다. - TP(True Positive): 예측과 실제가 모두 1인 경우 - FN(Flase Negative): 예측은 ..
(2020.07.15) KNN이라는 알고리즘에 대해 배웠다. 먼저 KNN 알고리즘은 K- Nearest Neighbors으로 최근접 이웃법이라고도 한다. 즉, 새로운 데이터를 입력받았을 때 가장 가까이 있는 것이 무엇이냐를 중심으로 새로운 데이터의 종류를 정해주는 알고리즘이다. 이는 지도학습 알고리즘 중하나로 인접한 데이터를 바탕으로 예측하는데 여기서 값들의 피타고라스 거리인 euclidean distance(유클리드 거리)를 사용한다. 또한 이렇게 계산한 거리로 그 거리안의 최빈값 또는 평균값들을 통해 해당 값이 어디에 포함되는지를 알아낼 수 있는 알고리즘이다. 장점으로는 해석하기 쉽고 간단한 알고리즘이라는 특징이 있지만, 예측이 느리고 특성및 스케일에 민감하다는 단점이 있다. 특히 이 중에서 ..