
프리필 단계의 강렬한 연산 폭풍이 지나가고 첫 번째 토큰이 생성되면, 언어 모델은 본질적으로 전혀 다른 구동 메커니즘을 요구하는 디코드 단계로 전환된다. 디코드 단계의 목적은 사용자가 입력한 프롬프트와 앞서 모델 자신이 생성한 모든 이전 토큰들을 새로운 문맥으로 삼아, 의미론적으로 가장 자연스럽게 이어질 다음 단일 토큰을 생성해 내는 것이다. 이 과정은 모델이 사용자가 설정한 최대 생성 토큰 수에 도달하거나, 문장의 끝을 알리는 특수 종료 토큰(, End of Sequence)을 스스로 출력할 때까지 끊임없이 반복된다. 디코드 단계의 가장 치명적인 시스템적 제약은 이 생성 과정이 철저하게 순차적(Sequential)이고 반복적(Iterative)이라는 데 있다. 디코드 단계에서는 각 스텝마다 오직 한 개의 새로운 토큰만이 추가되며, n번째 토큰이 완전히 결정되어야만 비로소 n+1번째 토큰을 예측하기 위한 어텐션 연산을 시작할 수 있으므로, 단일 생성 시퀀스 내에서는 연산을 병렬로 수행하는 것이 원천적으로 불가능하다.
디코드 단계의 각 단일 스텝에서는 바로 직전에 생성된 단 하나의 토큰 데이터만을 네트워크에 통과시켜 새로운 단일 Q, K, V 벡터를 계산한다. 모델은 다음 토큰을 올바르게 예측하기 위해 이 새롭게 생성된 단 하나의 Q 벡터를 과거의 전체 문맥과 대조해야 하는데, 이를 위해 프리필 단계 및 이전 디코드 스텝들에서 차례대로 누적하여 저장해 둔 KV 캐시 내의 모든 K 벡터들을 불러와 어텐션 스코어(Attention score)를 계산하고, 그 가중치를 V 벡터에 곱해 최종 출력을 얻게 된다. 연산이 끝난 후 새롭게 계산된 현재 토큰의 K와 V 벡터는 다시 기존 KV 캐시의 맨 끝에 추가(Append)되어 다음번 디코드 스텝의 문맥으로 편입된다. 이러한 구동 방식은 프리필 단계에서 GPU가 누렸던 연산의 이점을 완전히 파괴한다. 대규모 행렬-행렬 곱셈(GEMM)으로 모든 코어를 바쁘게 사용했던 프리필과 달리, 디코드 단계에서는 배치 크기가 1인 상황을 가정할 때, 단 하나의 토큰 벡터와 누적된 캐시 행렬 간의 내적을 수행하는 좁고 긴(Tall and Skinny) 형태의 행렬-벡터 곱셈(Matrix-Vector Multiplication, GEMV 또는 VMM) 연산으로 전락하게 된다.
수학적 관점에서 GEMV 연산은 산술 집약도가 극도로 낮다. 새로운 토큰을 생성하기 위해 수행해야 하는 실제 덧셈과 곱셈 연산의 양은 매우 적은 반면, 그 작은 연산을 수행하기 위해 수십 기가바이트에서 수백 기가바이트에 달하는 언어 모델 전체의 매개변수 가중치(Weights)와 KV 캐시 데이터를 매 스텝마다 외부 HBM 메모리에서 연산 코어 인근의 내부 SRAM으로 통째로 스트리밍하여 퍼 올려야 하기 때문이다. 따라서 디코드 단계는 값비싼 고성능 연산 코어들이 제 성능을 발휘하지 못하고, 오직 메모리에서 데이터가 도착하기만을 기다리며 공회전(Underutilization)하는 강력한 메모리 대역폭 바운드(Memory-bandwidth-bound) 상태에 빠지게 된다. 아무리 HBM과 같은 최첨단 초고속 메모리 기술을 탑재하더라도 수천억 개의 파라미터를 매 생성 토큰마다 물리적으로 이동시키는 엄청난 데이터 트래픽을 감당하기에는 물리적 대역폭의 한계(Memory Wall)가 명확하며, 이로 인해 디코드 단계의 처리 속도는 전적으로 메모리 대역폭의 폭에 의해 병목이 걸린다. 디코드 단계에서 하나의 추가적인 출력 토큰을 생성하는 데 걸리는 평균 시간을 TPOT(Time Per Output Token)라고 명명하며, 사용자의 프롬프트는 짧지만 모델이 생성해야 하는 응답의 길이가 매우 긴 워크로드의 경우 전체 추론 시간의 대부분이 이 디코드 단계에 집중되므로 TPOT 지표를 최적화하는 것이 서비스 성능의 척도가 된다. 또한 디코드 단계는 전체 언어 모델 추론 파이프라인에서 에너지 소모의 가장 큰 비중을 차지한다. 흥미롭게도 디코드 단계의 지연 시간은 GPU의 컴퓨팅 주파수를 높이더라도 향상되지 않는데, 이는 대역폭의 한계로 인해 컴퓨트 코어가 이미 잉여 상태에 있기 때문이며, 오히려 프로세서 내부의 한정된 SRAM 크기를 어떻게 조율하여 외부 HBM으로의 접근을 줄이느냐가 에너지 지연 곱(Energy Delay Product, EDP)과 전력 소율성을 결정짓는 핵심 변수로 작용한다.
한국어


