본문 바로가기
[네이버 커넥트재단] 부스트캠스 AI 기초 다지기 2회차

확률론 기초

by YUNZEE 2024. 8. 27.
728x90
AI 엔지니어 기초 다지기: 부스트 캠스 AI Teach 준비 과정을 토대로 정리한 것입니다.
딥러닝에서 확률론이 왜 필요한가?

- 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있다.

- 기계학습에서 사용되는 손실함수(loss function)들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도하게 된다.

-> 예측이 틀릴 위험을 최소화하도록 데이터를 학습하는 원리는 통계적 기계학습의 기본 원리이다.

- 회귀 분석에서 손실함수로 사용되는 L2-노름은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도한다.

- 분류 문제에서 사용되는 교차엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도한다.

- 분산 및 불확실성을 최소화하기 위해서는 측정하는 방법을 알아야 한다.

-> 두 대상을 측정하는 방법을 통계학에서 제공하기 때문에 기계학습을 이해하려면 확률론의 기본 개념을 알아야 한다.

 

확률분포는 데이터의 초상화 

- 데이터 공간을 X x Y 라 표기하고 D는 데이터 공간에서 데이터를 추출하는 분포이다.

->데이터 공간에 정의된 확률 분포를 초상화하고 확률 분포는 데이터를 추출할 때 D라고 한다. 하지만 이 D는 한 번에 알기 어렵다 그래서 확률분포를 이해하기 위해서

- 데이터 확률변수(X,Y) ~ D라 표기

-> 파란색 점들이 데이터 공간상에서 관측한 것들이고 이 데이터를 추출할 때 확률변수를 사용함

-  결합분포 P(x,y)는 D를 모델링한다.

-> D는 이론적으로 존재하는 확률분포이기 때문에 사전에 알 수 없다.

이산확률변수 vs 연속확률변수

- 확률변수는 확률분포 D에 따라 이산형(discrete)과 연속형(continuous) 확률변수로 구분하게 된다.

-> 데이터 공간은 X x Y에 의해 결정되는 것으로 오해를 하지만 사실은 D에 의해 결정된다. 

- 이산형 확률변수는 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해서 모델링한다.

- 연속형 확률변수는 데이터 공간에 정의된 확률변수의 밀도(density) 위에서의 적분을 통해 모델링한다.

-> p(x)는 밀도라고 하며, 누적확률분포 변화율을 나타낸 것이다.

 

- P(x)는 입력 x에 대한 주변확률분포로 y에 대한 정보를 주진 않는다.

- 조건부확률분포 P(x|y)는 데이터 공간에서 입력 x와 출력 y사이의 관계를 모델링한다.

-> P(x|y)는 특정 클래스가 주어진 조건에서 데이터의 확률분포를 보여준다.

결합분포가 주어진 상태에서 각각의 입력 x에서 y의 값을

x에 대한 정보를 주지 y에 대한 정보를 주지는 않는다

주변확률 분포는 x에 대한 정보와

조건부확률과 기계학습

-  조건부확률 P(x|y)는 입력변수 X에 대해 정답이   y일 확률을 의미한다.

- 로지스틱 회귀에서 사용했던 선형모델과  소프트맥스 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는 데 사용된다.                                     

- 회귀 문제의 경우 조건부기대값 E [y|x]을 추정한다.

- 딥러닝은 다층신경망을 사용하여 데이터로부터 특징패턴을 추출한다

-> 특징 패턴을 학습하기 위해 어떤 손실함수를 사용할지는 기계학습 문제와 모델에 의해 결정된다.

기대값이  뭔가요?

- 확률분포가 주어지면 데이터를 분석하는 데 사용 가능한 여러 종류의 통계적 범함수(statistical functional)를 계산할 수 있다.

- 기대값(expectation)은 데이터를 대표하는 통계량이면서 동시에 확률분포를 통해 다른 통계적  범 함수를 계산하는데  사용된다. (기대값 == 평균)                                                                                                                                                          

- 기대값을 이용해 분산, 첨도, 공분산 등 여러 통계량을 계산할 수 있다.

몬테카를로 샘플링

- 기계학습의 많은 문제들은 확률분포를 명시적으로 모를 때가 대부분이다.

- 확률 분포를 모를 때 데이터를 이용하여 기대값을 계산하려면 몬테카를로(monte carlo)샘플링 방법을 사용해야 한다.

-> 참고로 몬테카를로는 이산형이든 연속형이든 상관없이 성립한다.

-> 밀도와 질량을 모르고 샘플링하는 방법을 알고 있다면 샘플링을 통해서 기대값을 대신 계산해 볼 수 있다.

- 몬테카를러 샘플링은 독추출만 보장된다면 대수의 법칙(law of large number)에 의해 수렴성을 보장한다.

728x90