본문 바로가기
Artificial Intelligence/Deep Leaning

Attention Is All You Need

by YUNZEE 2024. 6. 18.
728x90

주의(attention)는 트랜스포머(Transformer) 아키텍처의 기초 메커니즘으로, 많은 분들이 들어보셨을 것이다. 트랜스포머의 개념은 종종 매우 복잡한 다이어그램으로 제시되거나 복잡한 응용 프로그램에 배치되어 매우 난해하게 느껴질 수 있다. 그렇다면 어떻게 이것을 이해하기 시작해야 할까?

 

그러나 주의(attention)의 핵심 작업은 매우 직관적인 아이디어다. 이번 블로그에 마지막 부분에서는 이것이 왜 강력한지, 그리고 어떻게 트랜스포머와 같은 더 큰 신경망의 일부로 사용할 수 있는지 단계별로 분해하여 설명할 것이다.

Intuition Behind Self-Atttention

특히, 우리는 자기 주의(self-attention)에 초점을 맞출 것이다. 이는 입력 예제의 가장 중요한 부분에 주의를 기울이는 것이다. 이미지를 예로 들어보면, 이미지를 고려하는 것이 가장 직관적이라고 생각한다. 여기 아이언맨의 사진이 있다. 우리의 목표가 이 이미지에서 중요한 정보를 추출하는 것이라면, 아마도 우리의 눈으로 이 이미지를 가로질러 한 픽셀씩 스캔할 수 있을 것이다. 그러나 우리의 뇌는 내부적으로 이런 종류의 계산을 하고 있을지 모르지만, 여러분과 저는 단순히 이 이미지를 보고 중요한 부분에 주의를 기울일 수 있다.

 

1. Identify which parts to attend to

- 관리해야 할 부분을 식별

2. Extract the features with high attention

- 높은 주의력으로 특징 추출

 

우리는 단순히 이 이미지를 보고 중요한 부분에 주의를 기울일 수 있다. 우리는 이미지 속에서 아이언맨이 우리 쪽으로 다가오는 것을 볼 수 있고, 조금 더 집중해서 아이언맨의 어떤 세부 사항이 중요할지 파악할 수 있다. 당신의 뇌가 하고 있는 일은 문제의 첫 번째 부분에서 어떤 부분에 주의를 기울여야 하는지 식별하는 것이다. 이 첫 번째 부분이 정말로 가장 흥미롭고 도전적인 부분이며, 이는 효과적인 검색 개념과 매우 유사하다. 사실 이것이 검색이 하는 일이다.

Understanding Attention with Search

그렇다면 다음으로 검색이 어떻게 작동하는지 살펴보자. 요즘 시대에 대면수업에 참여하는 것 외에도 할 수 있는 한 가지는 인터넷에 접속해서 모든 영상를 찾아보고 자신에게 맞는 강의를  찾는 것이다. 즉, 검색 작업을 수행하는 것이다.

 

여러분은 유튜브와 같은 거대한 데이터베이스를 가지고 있고, 영상를 찾고 싶어 한다. 검색어로 '딥 러닝'을 입력하면 가능한 출력 결과들이 나온다. 데이터베이스의 모든 비디오에는 해당 비디오와 관련된 중요한 정보가 있을 것이다. 예를 들어, 제목이 그렇다. 이제 검색 작업은 여러분의 검색어와 각 비디오의 제목, 즉 데이터베이스의 키들 사이의 겹침을 찾는 것이다. 우리가 계산하고자 하는 것은 검색어와 이 키들 사이의 유사성과 관련성 지표이다. 이들이 우리의 검색어와 얼마나 유사한지 단계별로 확인할 수 있다.

 

첫 번째 옵션이 바다거북에 대한 우아한 거대한 비디오라면, 딥 러닝에 대한 우리의 검색어와는 크게 관련이 없다.

두 번째 옵션인 '딥 러닝 소개: 이 수업의 첫 번째 소개 강의'는 매우 관련이 높다.

세 번째 옵션이 코비 브라이언트에 대한 비디오라면, 역시 딥 러닝과는 관련이 없다.

여기서 핵심 작업은 검색어와 키를 함께 비교하여 유사성을 계산하는 것이다. 마지막 단계는 이제 우리가 어떤 키가 관련 있는지 식별한 후, 관련 정보를 추출하는 것이다. 우리가 주목하고자 하는 비디오는 실제 비디오 자체를 의미하며, 이를 값(value)이라고 부른다. 검색이 잘 구현되었기 때문에 우리는 딥 러닝에 관한 관련 비디오를 성공적으로 식별했다. 이제 이 비디오에 주목하게 된다. 이 검색 과정에서의 직관, 즉 검색어를 주고 유사성을 찾고 관련 값을 추출하려는 시도가 자기 주의(self-attention)의 기본을 형성한다.

 

다음장에서는 트랜스포머와 같은 신경망이 어떻게 작동되는지 알아보도록 하겠습니다.

728x90