본문 바로가기
Artificial Intelligence/Deep Leaning

Neural Network in Practice: Mini-batches

by YUNZEE 2024. 1. 13.
728x90
Gradient Descent(경사 하강법)

경사 하강법 알고리즘으로 가중치가 업데이트되고 있는 과정을 나타내고 있다.

이미지 오른쪽을 보면 그래프를 확인 할 수 있는데 그래프의 빨간색 부분을 목적지라고 하고 그것을 산의 정상이라고 한다면, 현재 자신의 위치에서 가장 경사가 높은 곳으로 계속 이동하다 보면 일반적으로 산의 정상에 도달할 수 있을 것이다. 이 방법을 경사 상승법이라고 한다. 그리고 목적지가 산 밑이라면 현재 위치에서 계속해서 가장 낮은 지점을 찾아 이동한다. 이것을 경사 하강법이라고 한다.

 

일반적으로 경사 하강법은 함수의 최소값을 찾아야 하는 상황에서 사용된다. 인공 지능의 경우 최적의 학습 패턴을 위해 자신의 파라미터(Perameter)를 검증해야 하며 검증 과정에서 손실 함수를 사용한다. 검증 과정에서 손실 함수의 값이 가장 낮은 피라미터를 발견했다면 해당 파라미터가 최적의 파리미터임이 검증되는 것이다.

 

경사 하강법은 신경망을 훈련시키는 알고리즘 중 하나로 이 알고리즘은 손실 함수의 기울기를 따라 가중치를 업데이트하여 손실을 줄이는 방법이다.

 

그렇다면 미니 배치란 무엇인가?

미니 배치는 전체 데이터 세트에서 무작위로 선택한 작은 데이터 샘플을 의미한다. 경사 하강법은 미니 배치에 대한 기울기를 계산하여 가중치를 업데이트한다.

 

미니 배치의 장점

- 계산 비용이 적다.

- 전체 데이터 세트에 대한 기울기에 비해 더 정확한 기울기를 제공할 수 있다.

- 신경망 훈련 속도를 향상할 수 있다.

 

미니배치를 추가 설명하자면

- 미니 배치의 크기는 중요한 하이퍼파라미터입니다.

- 미니 배치가 너무 작으면 정확성이 떨어집니다.

- 미니 배치가 너무 크면 계산 비용이 많이 든다.

확률적 경사 하강법(Stochastic Gradient Descent, SGD)

확률적 경사 하강법이란? 

- 신경망 훈련에서 사용되는 알고리즘이다.

- 전체 데이터 세트 대신 무작위로 선택한 단일 테이터 포인트에 대한 기울기를 계산하여 가중치를 업데이트한다.

 

장점:

- 계산 속도가 빠르다

- 전체 데이터 세트에 대한 계산에 비해 메모리 사용량이 적다.

- 지역 최솟값에 빠질 위험이 적다.

 

단점:

- 기울기의 추정치가 매우 불안정하다.

- 최적점에 도달하기까지 많은 반복이 필요하다.

 

경사 하강법과 확률적 경사 하강법의 차이란?

예를 들어 설명드리면 100만 개의 데이터 포인트가 있는 데이터 세트가 있다고 가정한다. 경사 하강법은 100만 개의 데이터 포인트 모두에 대한 기울기를 계산해야 한다. 확률적 경사 하강법은 무작위로 선택한 하나의 데이터 포인트에 대한 기울기만 계산하면 된다.

 

확률적 경사 하강법은 계산 효율성과 지역 최솟값 회피 측면에서 장점이 있다. 하지만 불안정한 기울기 추정으로 인해 수렴 속도가 느려질 수 있다. 따라서 학습률, 미니 배치 크기, 학습 스케줄링 등의 기법을 적절히 사용하여 단점을 보완하는 것이 중요하다.

 

위의 이미지는 미니 배치를 사용하는 확률적 경사 하강법의 작동 방식을 보여준다.

오른쪽에는 각 단계에서 미니 배치를 선택하고 기울기를 계산하는 과정을 보여준다.

 

훈련 중 미니 배치 사용의 이점을 정리하자면

1. 더 정확한 기울 추정과 원활한 수렴

- 미니 배치를 사용하면 전체 데이터 세트를 사용하는 것보다 기울기를 더 정확하게 추정할 수 있다.

- 이는 더 빠르고 원활한 수렴으로 이어진다.

 

2. 더 큰 학습률 허용

- 기울기의 정확도가 높아지면 더 큰 학습률을 사용할 수 있다.

- 이는 학습 속도를 더욱 향상한다.

 

3. 빠른 훈련

- 미니배치를 사용하면 전체 데이터 세트를 사용하는 것보다 훨씬 빠르게 훈련할 수 있다.

 

4. 계산의 병렬화 및 GPU에서의 상당한 속도 향상

- 미니 배치의 계산은 병렬화 할 수 있다.

- 이는 GPU를 사용할 때 상당한 속도 향상을 달성할 수 있다.

728x90