본문 바로가기
728x90

MIT Introduction to Deep Learning | 6.S1918

Neural Networks in Practice: Overfitting(과적합) 이미지 설명 Underfitting: 데이터 포인트와 단순 선형 모델이 그려져 있다. Overfitting: 데이터 포인트와 적절한 복잡성의 모델이 그려져 있다. Ideal fit: 데이터 포인트와 적절한 복잡성의 모델이 그려져 있다. 신경망 확률적 경사 하강법으로 최적화할 때 우리는 과적합이라는 문제에 직면한다. 과적합은 모델이 훈련 데이터의 패턴을 너무 정확하게 학습하여 테스트 데이터에 일반화되지 못하는 현상이다. Underfitting(과소적합) - 간단한 선형 모델이 훈련 데이터에 잘 맞지 않는 것을 보여준다. 이는 데이터가 선형적이 아니기 때문이다. Overfitting(과적합) - 너무 복잡한 모델이 훈련 데이터의 모든 잡음까지 학습하여 테스트 데이터에 일반화되지 못하는 것을 보여준다. Ide.. 2024. 1. 19.
Neural Network in Practice: Mini-batches Gradient Descent(경사 하강법) 경사 하강법 알고리즘으로 가중치가 업데이트되고 있는 과정을 나타내고 있다. 이미지 오른쪽을 보면 그래프를 확인 할 수 있는데 그래프의 빨간색 부분을 목적지라고 하고 그것을 산의 정상이라고 한다면, 현재 자신의 위치에서 가장 경사가 높은 곳으로 계속 이동하다 보면 일반적으로 산의 정상에 도달할 수 있을 것이다. 이 방법을 경사 상승법이라고 한다. 그리고 목적지가 산 밑이라면 현재 위치에서 계속해서 가장 낮은 지점을 찾아 이동한다. 이것을 경사 하강법이라고 한다. 일반적으로 경사 하강법은 함수의 최소값을 찾아야 하는 상황에서 사용된다. 인공 지능의 경우 최적의 학습 패턴을 위해 자신의 파라미터(Perameter)를 검증해야 하며 검증 과정에서 손실 함수를 사용한다.. 2024. 1. 13.
Neural Network in Practice: Optimization(실제 신경망: 최적화) 전에 설명했던 신경망 훈련의 핵심 알고리즘인 역전파 알고리즘에 대해 다시 정리하자면 손실 함수의 기울기를 계산하여 가중치를 업데이트하고, 체인 룰을 반복적으로 적용하여 효과적으로 기울기를 계산한다. 실제 신경망 훈련의 복잡성은 경사하강법만 사용하지 않고, 실제로는 더 복잡한 최적화 기법과 알고리즘을 사용한다. 딥 뉴런망은 매개변수 수가 많고 가중치 공간이 매우 차원이 높다. 훈련 복잡성에 대한 몇 가지 예시 vanishing gradient: 기울기가 지나치게 작아져 학습이 느려지거나 막힐 수 있다. exploding gradient: 기울기가 지나치게 커져 가중치가 불안정하게 업데이트될 수 있다. saddle points: 국소 최소점에 빠져 최적 해결책을 찾지 못할 수 있다. overfitting: .. 2024. 1. 11.
역전파 알고리즘(Backpropagation algorithm) 앞에서 설명한 다층 퍼셉트론 같은 깊은 신경망이 등장한 후 선형으로 가능하지 않은 데이터들을 분류하는 것이 가능해졌다. 하지만 모델의 깊이가(depth)가 깊어질수록, 즉 모델의 층이 많아질수록 모델의 가중치의 수는 기하급수적으로 많이 늘어난. 기존의 경사하강법은 기울기를 이용하여 가중치를 업데이트하는 방법을 사용하긴 하지만, 여러 층에 존재하는 가중치들을 모두 하나하나 업데이트하는 것은 매우 많은 연산양과 메모리를 요구한다. 이를 해결하고자 보안된 것이 역전파 알고리즘이다. 위의 이미지는 입력 하나, 출력 하나, 뉴런 하나로 구성된 가장 단순한 신경망을 보여준다. 왼쪽부터 입력(x), 가중치(w1과 w2), 뉴런의 출력(y), 손실 함수(L)로 구성되어 있다. 우리의 목표는 손실 함수(L)를 최소화하기.. 2024. 1. 5.
Training Neural Networks(뉴럴 네트워크 훈련) 뉴럴 네트워크 훈련 과정의 마지막 단계로 손실 함수를 최소화하여 네트워크를 개선하는 방법에 대해 설명하도록 하겠습니다. 왼쪽 그래프는 손실 함수 그래프로 네트워크의 성능을 나타낸다. 곡선의 최저점은 우리가 찾고자 하는 최소 손실이다. (good learning rate) 오른쪽 그래프는 적당한 손실함수의 형태를 보인다. 위아래 진동하는 이유는 배치 사이즈가 너무 낮기 때문이다. 모든 데이터에 대하여 손실 함수(오차)가 향상할 것이기 때문이다.(비용 감소) - W*는 이 최소 손실을 달성하는 네트워크의 가중치 벡터이다. - 훈련 데이터 전체에 걸쳐 평균 손실을 최소화하려고 한다. 이는 즉, 네트워크가 모든 데이터 포인트에서 작은 오류를 만드는 것이 가장 좋다는 것을 의미한다. 정리 - 훈련 데이터 전체에 .. 2023. 12. 31.
Applying Neural Networks(신경망 적용) 신경망 적용의 예 내가 이 수업을 통과할 수 있을까?라는 문제이다. x1 = 수강하는 강의 수 x2 = 최종 프로젝트에 소요된 시간 초록색점은 Pass 빨강색점은 Fail 여기서 나는 수강하는 강의의 수가 4개이고 최종 프로젝트에 소요되는 시간은 5시간이다. 과연 이 수업을 통과할 수 있는지 신경망을 이용해서 결과를 찾아보자 다층 퍼셉트론의 신경망 구조를 사용해서 문제를 풀어보자 Predicted: 0.1 : 신경망이 예측한 값으로는 0.1이라고 했는데, 이 경우는 수업에 통과할 가능성이 10%라고 예측하는 것이다. Actual: 1 : 실제 값을 나타낸 것으로 수업 결과는 통과를 의미한다. 따라서, 신경망이 이 수업에 통과할 가능성이 낮다고 예측했지만, 실제 결과는 통과였다는 것을 보여줍니다. 왜 그런.. 2023. 12. 30.
728x90