통계학
모수
•
통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference) 하는 것이 목표이며, 기계학습과 통계학이 공통적으로 추구하는 목표이다
•
그러나 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아낸다는 것은 불가능하므로, 근사적으로 확률분포를 추정할 수 밖에 없다
◦
예측모형의 목적은 분포를 정확하게 맞추는 것보다는 데이터와 추정 방법의 불확실성을 고려해서 위험을 최소화 하는 것
•
데이터가 특정 확률분포를 따른다고 선험적으로 (a priori) 가정한 후, 그 분포를 결정하는 모수(parameter) 를 추정하는 방법을 모수적(parametric) 방법론 이라한다
•
특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수(nonparametric) 방법론 이라 부른다
◦
기계학습의 많은 방법론은 비모수 방법론에 속한다
데이터로 모수를 추정해보기
최대가능도 추정법
•
표본평균이나 표본분산은 중요한 통계량이지만 확률분포마다 사용하는 모수가 다르므로 적절한 통계량이 달라지게 된다
•
이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나는 최대가능도 추정법(maximum likelihood estimation) 이다
•
데이터 집합 X가 독립적으로 추출되었을 경우 로그가능도를 최적화한다
왜 로그가능도를 사용하나?
•
로그가능도를 최적화하는 모수 는 가능도를 최적화하는 MLE가 된다
•
데이터의 숫자가 적으면 상관이 없지만, 만일 데이터의 숫자가 수억 단위가 된다면, 컴퓨터의 정확도로는 가능도를 계산하는 것이 불가능하다
•
데이터가 독립일 경우, 로그를 사용하면 가능도의 곱셈을 로그가능도의 덧셈으로 바꿀 수 있기 때문에 컴퓨터로 연산이 가능해진다
•
경사하강법으로 가능도를 최적화할 때, 미분 연산을 사용하게 되는데, 로그가능도를 사용하면 연산량을 에서 으로 줄여준다
•
대게의 손실함수의 경우, 경사하강법을 사용하므로 음의 로그가능도(negative log-likelihood)를 최적화하게 된다