
사용자의 텍스트나 시스템 프롬프트가 언어 모델에 최초로 입력되면, 추론 프로세스의 첫 번째 관문인 프리필 단계가 시작된다. 이 단계의 주된 목적은 모델이 사용자의 입력 전체를 일괄적으로 분석하여 후속 텍스트 생성을 위한 심층적인 문맥적 이해를 형성하고, 이를 바탕으로 첫 번째 출력 토큰을 생성함과 동시에 후속 연산에 필수적인 중간 데이터 구조를 GPU 메모리 내에 구축하는 것이다. 프리필 단계의 가장 중요한 수학적 특징은 입력된 프롬프트 내의 모든 토큰에 대한 어텐션 연산이 고도로 병렬화(Parallelized)되어 실행된다는 점이다. 초기 단계에서는 사용자가 입력한 프롬프트를 구성하는 전체 토큰 시퀀스가 이미 시스템에 주어져 있으므로, 모델은 트랜스포머의 어텐션 계층 내부에서 각 토큰에 대응하는 쿼리(Query, Q), 키(Key, K), 밸류(Value, V) 벡터를 개별적으로 기다릴 필요 없이 일거에 동시에 계산할 수 있다. 이러한 대규모 병렬 처리는 GPU 내부에 존재하는 수만 개의 스트리밍 멀티프로세서(Streaming Multiprocessors)와 텐서 코어(Tensor Cores)를 일제히 가동시켜, 대규모 행렬 대 행렬 곱셈(Matrix-Matrix Multiplication, 일명 GEMM 또는 MatMul) 연산을 수행하게 한다. GEMM 연산은 두 개의 거대한 2차원 데이터 배열을 서로 곱하는 과정으로, 입력 행렬의 크기가 충분히 클 때 GPU의 막대한 병렬 처리 능력을 극한으로 끌어올릴 수 있는 형태의 수학적 연산이다. 입력 프롬프트의 시퀀스 길이와 배치 크기(Batch size)가 클수록 연산해야 할 행렬의 차원이 커지게 되며, 이는 메모리에서 가져온 데이터를 칩 내부에서 반복적으로 재사용하는 높은 산술 집약도(Arithmetic Intensity)를 달성하게 만든다. 산술 집약도가 높다는 것은 외부의 고대역폭 메모리(HBM)로부터 상대적으로 느리게 데이터를 읽어오는 빈도에 비해 칩 내부의 초고속 SRAM(Static Random-Access Memory)과 연산 코어에서 수행되는 부동소수점 연산의 횟수가 압도적으로 많음을 의미한다. 이로 인해 프리필 단계는 하드웨어 측면에서 전형적인 연산 바운드(Compute-bound 또는 Arithmetic-bound) 상태에 놓이게 되며, GPU의 연산 능력을 거의 100%에 가깝게 포화(Saturate)시킬 수 있다.
프리필 단계는 단순히 첫 번째 토큰의 출력을 결정하는 것에 그치지 않고, 추론 과정 전반을 지배하는 핵심 데이터 구조인 KV 캐시(Key-Value Cache)의 초기 구축이라는 중대한 임무를 수행한다. 언어 모델이 프롬프트를 통과하며 각 트랜스포머 계층에서 산출해 낸 K 벡터와 V 벡터들은 단순히 연산 후 폐기되는 것이 아니라, GPU 메모리 내의 고정된 풀(Memory pool)에 구조화된 텐서(Tensor) 형태로 차곡차곡 저장된다. 이렇게 저장된 입력 토큰들의 정보는 이어지는 디코드 단계에서 모델이 과거의 문맥을 참조할 수 있도록 해주는 일종의 단기 기억 장치 역할을 수행한다. 프리필 단계가 완전히 종료되는 논리적 시점은 입력된 프롬프트 전체에 대한 완전한 KV 캐시 구조가 메모리에 구축되고, 이를 바탕으로 모델의 최종 출력층에서 로짓(Logits)을 산출하여 사용자가 화면에서 보게 될 첫 번째 출력 토큰이 확률적으로 샘플링되는 순간이다. 이 프리필 프로세스 전체에 소요되는 시간은 대규모 언어 모델의 성능 평가 지표 중 하나인 첫 토큰 생성 시간, 즉 TTFT(Time to First Token)와 직접적으로 매핑된다. TTFT는 시스템이 사용자의 요청을 수락하고 최초의 응답을 반환하기까지의 지연을 나타내며, 특히 검색 증강 생성(Retrieval-Augmented Generation, RAG) 파이프라인이나 방대한 문서의 요약 작업과 같이 시스템에 수만 개의 토큰으로 구성된 방대한 문맥(Context)을 한 번에 주입해야 하는 상황에서는, 추론 전체 소요 시간 중 프리필 단계가 차지하는 비중이 압도적으로 커진다. 이렇게 프롬프트가 길고 생성해야 할 출력값이 짧은 작업 워크로드에서는 프리필의 지연 시간 단축이 성능 최적화의 핵심 과제가 되며, 이 단계에서의 에너지 소모와 실행 시간은 하드웨어 연산 장치의 동작 주파수(Frequency) 향상에 민감하게 반응하여 지연 시간이 뚜렷하게 단축되는 경향을 보인다.
한국어


