머신러닝 3

분류 평가

지도학습 중 이산변수인 category (class) 예측에 대한 평가 지표를 정리한다. 위 표는 confusion matrix 라는 것인데, actual class는 답, predicted class는 예측값이다. positive는 질병의 발병 등 무언가 중요한 사건을 말한다. TP와 TN는 모두 답을 맞춘 경우고, 그 외는 error로서, type I은 FP, type II는 FN이다. 즉, type I은 실제는 negative인데 positive로 잘못 예측한 경우이다. 예를 들어 질병이 없는데 질병이 있다고 예측한 것이다. type II는 실제는 positive인데 negative로 잘못 예측한 경우이다. 특히 이런 진단의 문제는 type II 오류를 늘리는 한이 있더라도(병이 있는데 병이 없다고..

머신러닝 2022.08.28

분포추정

비지도학습의 문제로, 어떤 데이터 포인트(관측) 집합이 있을 때 이를 생성했을 것으로 추정되는 분포를 구하는 문제가 있다. 이를 위해 모수적, 비모수적 방법이 연구되었는데, 아주 중요한 키워드 들이므로 하나씩 그 요점을 살펴본다. 모수적(매개변수적) 방법 데이터 집합에 의해 결정되는 적은 수의 매개변수에 의해 확률 분포가 조절됨. 선택된 밀도 함수가 데이터를 만들어낸 분포를 표현하기에 적절하지 않은 모델이었을 수 있음 GMM (Gaussian Mixture Model): 몇 개(k)의 가우시안 분포(모수는 mu, sig2)의 혼합(정확히는 선형결합. 그 가중치는 혼합계수인 pi)을 통해 분포를 구하며, 모수 세트(mu, sig2, pi)를 구하는 방법은 MLE, EM 이 있다. 비모수적(비매개변수적) 방..

머신러닝 2022.08.28