'AWQ' 태그의 글 목록

vLLM과 PagedAttention - 대규모 LLM 서비스의 표준

요약: 2025년 현재, LLM 서빙의 사실상 표준(De Facto Standard)이 된 vLLM. 도대체 무엇이 GPU 메모리 효율을 24배나 높였을까요? 핵심 기술인 PagedAttention의 원리부터 TGI, TensorRT-LLM과의 비교, 그리고 바로 써먹는 실전 코드까지 엔지니어의 관점에서 파헤쳐 봅니다.1. 들어가며: GPU 메모리, 80%는 공기만 채우고 있다?ChatGPT 이후, 모든 기업이 LLM을 도입하려 할 때 마주친 가장 큰 벽은 '모델 학습'이 아니라 '추론(Inference) 비용'이었습니다. 비싼 A100 GPU를 사서 서비스를 돌리는데, 정작 메모리의 60~80%는 아무 데이터도 없이 낭비되고 있었다는 사실, 알고 계셨나요?이 '메모리 낭비'가 바로 동시 접속자를 늘리지..

format_list_bulleted AI & Software
· 2026. 1. 8.
textsms

navigate_before
1
navigate_next

vLLM과 PagedAttention - 대규모 LLM 서비스의 표준

티스토리툴바