Search
Duplicate

확률론

생성자
분류
인공지능
생성일
2023/02/16 14:02

확률론

mai_06.pdf
3753.0KB

딥러닝에서 확률론이 왜 필요?

딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있다
기계학습에서 사용되는 손실함수(loss function) 들의 작동원리는 데이터 공간을 통계적으로 해석해서 유도하게 된다
회귀 분석에서 손실함수로 사용되는 L2L_2-노름은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도한다
분류 문제에서 사용되는 교차엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도한다
분산 및 불확실성을 최소화하기 위해서는 측정하는 방법을 알아야한다

확률분포는 데이터의 초상화

데이터 공간을 xx x yy 라 표기하고 D는 데이터 공간에서 데이터를 추출하는 분포이다
데이터는 확률변수로 (x, y) ~ D 라 표기한다
결합분포 P(x, y) 는 D를 모델링한다
D는 이론적으로 존재하는 확률분포이기 때문에 사전에 알 수 없다
P(x) 는 입력 x 에 대한 주변확률분포로 y에 대한 정보를 주진 않는다
조건부확률분포 P(x | y) 는 데이터 공간에서 입력 x와 출력 y 사이의 관계를 모델링한다
P(x | y) 는 특정 클래스가 주어진 조건에서 데이터의 확률분포를 보여준다

조건부확률과 기계학습

조건부확률 P(y | x) 는 입력변수 x에 대해 정답이 y일 확률을 의미
연속확률분포의 경우 P(y | x)는 확률이 아니고 밀도로 해석한다는 것 주의!
로지스틱 회귀에서 사용했던 선형모델과 소프트맥스 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용된다
회귀 문제의 경우 조건부기대값 E[y | x] 을 추정한다
딥러닝은 다층신경망을 사용하여 데이터로부터 특징패턴 𝝓 을 추출한다
특징패턴을 학습하기 위해 어떤 손실함수를 사용할지는 기계학습 문제와 모델에 의해 결정된다

이산확률변수 vs 연속확률변수

확률변수는 확률분포 D에 따라 이산형(discrete) 과 연속형(continuous) 확률변수로 구분하게 된다
이산형 확률변수는 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해서 모델링한다
연속형 확률변수는 데이터 공간에 정의된 확률변수의 밀도(density) 위에서의 적분을 통해 모델링한다

기대값

확률분포가 주어지면 데이터를 분석하는 데 사용 가능한 여러 종류의 통계적 범함수(statistical functional) 를 계산할 수 있다
기대값 (expectation)은 데이터를 대표하는 통계량이면서 동시에 확률분포를 통해 다른 통계적 범함수를 계산하는데 사용된다
기대값을 이용해 분산, 첨도, 공분산 등 여러 통계랑을 계산할 수 있다

몬테카를로 샘플링

기계학습의 많은 문제들은 확률분포를 명시적으로 모를 때가 대부분이다
확률분포를 모를 때 데이터를 이용하여 기대값을 계산하려면 몬테카를로 (Monte Carlo) 샘플링 방법을 사용해야한다
몬테카를로 샘플링은 독립추출만 보장된다면 대수의 법칙 (law of large number) 에 의해 수렴성을 보장한다
몬테카를로 샘플링은 기계학습에서 매우 다양하게 응용되는 방법

몬테카를로 예제) 적분 계산하기

1.49387 ± 0.0039 이므로 오차 범위 안에 참값이 있다