Ruru's PlayGround :)
close
프로필 배경
프로필 로고

Ruru's PlayGround :)

  • 분류 전체보기 (547) N
    • 일상다반사 (139) N
      • 뉴스 (38) N
      • 생활지식 (10)
      • 소프트웨어 (8)
      • 여행 (2)
      • 음악 (40)
      • 외국어 (7)
      • 좋아 (29)
      • 게임 (5)
    • AI & Software (45) N
      • 바이브 코딩(Vibe Coding) (9) N
      • AI 업무 효율성 (8) N
    • System (105)
      • Microsoft Exchange (11)
      • Microsoft SharePoint (17)
      • Microsoft Lync (37)
      • System Mangement (39)
    • Development (257)
      • .NET (145)
      • Web (87)
      • Mobile (0)
      • Etc. (14)
      • Design (11)
  • 홈
  • 태그
  • 방명록
vLLM과 PagedAttention - 대규모 LLM 서비스의 표준

vLLM과 PagedAttention - 대규모 LLM 서비스의 표준

요약: 2025년 현재, LLM 서빙의 사실상 표준(De Facto Standard)이 된 vLLM. 도대체 무엇이 GPU 메모리 효율을 24배나 높였을까요? 핵심 기술인 PagedAttention의 원리부터 TGI, TensorRT-LLM과의 비교, 그리고 바로 써먹는 실전 코드까지 엔지니어의 관점에서 파헤쳐 봅니다.1. 들어가며: GPU 메모리, 80%는 공기만 채우고 있다?ChatGPT 이후, 모든 기업이 LLM을 도입하려 할 때 마주친 가장 큰 벽은 '모델 학습'이 아니라 '추론(Inference) 비용'이었습니다. 비싼 A100 GPU를 사서 서비스를 돌리는데, 정작 메모리의 60~80%는 아무 데이터도 없이 낭비되고 있었다는 사실, 알고 계셨나요?이 '메모리 낭비'가 바로 동시 접속자를 늘리지..

  • format_list_bulleted AI & Software
  • · 2026. 1. 8.
  • textsms
  • navigate_before
  • 1
  • navigate_next
최근 글
인기 글
최근 댓글
태그
  • #자바스크립트
  • #javascript
  • #microsoft
  • #C#
  • #SilverLight
  • #ASP.NET
  • #OCS
  • #Programming
  • #프로그래밍
  • #.NET
전체 카테고리
  • 분류 전체보기 (547) N
    • 일상다반사 (139) N
      • 뉴스 (38) N
      • 생활지식 (10)
      • 소프트웨어 (8)
      • 여행 (2)
      • 음악 (40)
      • 외국어 (7)
      • 좋아 (29)
      • 게임 (5)
    • AI & Software (45) N
      • 바이브 코딩(Vibe Coding) (9) N
      • AI 업무 효율성 (8) N
    • System (105)
      • Microsoft Exchange (11)
      • Microsoft SharePoint (17)
      • Microsoft Lync (37)
      • System Mangement (39)
    • Development (257)
      • .NET (145)
      • Web (87)
      • Mobile (0)
      • Etc. (14)
      • Design (11)
전체 방문자
오늘
어제
전체
Copyright © Ruru's PlayGround :) All rights reserved.
Designed by JJuum

티스토리툴바