본문 바로가기
728x90

mit 6.s191 (2023): recurrent neural networks2

Learning Self-Attention with Neural Networks 트랜스포머와 같은 신경망에서 이것이 어떻게 작동하는지 구체적으로 알아보겠습니다.Encode position information언어 예제로 돌아가 보자면, 우리의 목표는 이 입력 문장에서 의미론적으로 중요한 특징들을 식별하고 주목하는 것이다.첫 번째 단계는 시퀀스를 갖는 것이다. 우리는 순서를 갖고 있다. 반복을 제거했으며, 모든 시간 단계를 한 번에 입력하고 있다. 여전히 순서와 위치 의존성에 대한 정보를 인코딩하고 캡처할 방법이 필요하다. 이것이 수행되는 방식은 위치 인코딩(positional encoding)이라는 아이디어를 통해 순서 정보를 포함시키는 것이다. 이는 시퀀스에 내재된 순서 정보를 캡처한다. 간단히 설명하자면, 이 아이디어는 이전에 소개한 *임베딩(embedding)과 관련이 있다. .. 2024. 7. 11.
Attention Is All You Need 주의(attention)는 트랜스포머(Transformer) 아키텍처의 기초 메커니즘으로, 많은 분들이 들어보셨을 것이다. 트랜스포머의 개념은 종종 매우 복잡한 다이어그램으로 제시되거나 복잡한 응용 프로그램에 배치되어 매우 난해하게 느껴질 수 있다. 그렇다면 어떻게 이것을 이해하기 시작해야 할까? 그러나 주의(attention)의 핵심 작업은 매우 직관적인 아이디어다. 이번 블로그에 마지막 부분에서는 이것이 왜 강력한지, 그리고 어떻게 트랜스포머와 같은 더 큰 신경망의 일부로 사용할 수 있는지 단계별로 분해하여 설명할 것이다.Intuition Behind Self-Atttention특히, 우리는 자기 주의(self-attention)에 초점을 맞출 것이다. 이는 입력 예제의 가장 중요한 부분에 주의를 기.. 2024. 6. 18.
728x90