[NLP] encoder decoder 둘다 사용하는 이유 + 옵티마이저 질문 > 자유 게시판

[NLP] encoder decoder 둘다 사용하는 이유 + 옵티마이저 질문

2025-07-23 210

안녕하세요, NLP를 통한 텍스트 분석 방법 탐구를 읽다 몇가지 궁금증이 생겨 질문드립니다.

Transformer 기반의 모델중에서

GPT는 Transformer의 Decoder만 사용하고

BERT는 Encoder만 사용하는 걸로 아는데

NLP 탐구(논문)에선 두개 다 쓰신 이유가 궁금합니다.

또 옵티마이저 중 Adam 옵티마이저를 사용하셨는데,

NAG나 SGD보다는 Adam에서 어떤 장점이 있어 Adam 옵티마이저를 사용하셨는지 궁금합니다!

답변에 참고해주세요!

Natural Language Processing을 통한 텍스트 분석 방법 탐구

김혜인 | 2024-11-01

답변 1

안녕하세요, 켄들러 이수민 입니다.

우선 첫번째 질문에 대해서는 모델의 목적에 따라 모델의 구조가 달라지기 때문이라고 답변드릴 수 있을 것 같습니다.

BERT는 언어 전반을 이해하하는데 특화된 모델인 반면 GPT는 뒤에 올 텍스트를 예측하고 생성해내는데 특화된 모델입니다. 따라서 BERT는 Encoder를 겹겹이 쌓은 self attention구조이고 GPT는 Decoder를 겹겹이 쌓은 causal attention구조입니다.

탐구 자료에 있는 모델은 뉴스 기사를 이해하고 텍스트를 생성해 내야하고과 Transformer 모델의 전반적인 구조에 대한 이해를 돕기 위해 Encoder와 Decoder를 모두 사용하였다고 생각하시면 될 것 같습니다.

그리고 옵티마이저 질문의 경우, SGD는 가장 기본적인 최적화 기법이며 가중치에서 학습율과 그래디언트를 빼준 값으로 갱신을 합니다. 여기서 그래디언드의 관성을 이용하자는 생각에서 나온 기법이 Momentum인데, 이전에 특정 방향으로 그래디언트가 흘렀다면, 다른 방향으로 이동하더라도 이전에 이동했던 방향성을 조금 활용하는 기법입니다. 그리고 NAG는 Momentum을 응용한 기법으로 Momentum으로 한 걸음 나아간 곳에서 계산한 기울기와 관성 방향을 더한 값을 이용하여 가중치를 갱신합니다.

이전까지는 그래디언트에 곱해지는 학습율이 매번 똑같고, 그래디언트의 모든 요소에 똑같은 값이 곱해졌다면, 고정된 학습율이 아닌 상황에 따라 다르게 적용되는 Adaptive learning rate를 활용해 두 가지 상황에 적응하도록 하는 Adaptive learning 기법이 등장하게 되었습니다.

Adam은 Adaptive learning과 Momentum을 합쳐서 만든 기법이며, 대부분의 학습에서 Adam을 Optimizer로 사용하면 성능이 가장 좋습니다.

간단하게 설명하자면 Adam을 사용하는 이유는 빠르고 안정적이며 많은 연구에서도 사용되고 있기 때문이라고 할 수 있습니다.

답변하기