도입LLM 프로덕션 서빙의 사실상 표준인 vLLM이 2026년 4월에 두 차례의 메이저 릴리스를 내놨습니다. 3월 말의 v0.18.0은 gRPC 서빙과 GPU 스펙큘레이티브 디코딩을 들고 왔고, 4월 2일의 v0.19.0은 비동기 스케줄링을 기본값으로 전환하고 Gemma 4 아키텍처를 Day-0로 지원합니다. 더해서 Completions API에서 원격 코드 실행이 가능했던 CVE-2026-0994 패치도 이 사이클에 포함되어, 프로덕션 사용자는 가급적 빠르게 업그레이드가 필요합니다. 이 글에서는 릴리스의 의미, 성능 수치, 코드 관점에서의 변화를 정리합니다.📌 한 줄 요약v0.18.0 (2026년 3월 말): gRPC 서빙, GPU NGram 스펙큘레이티브, FlexKV 오프로딩, GPU-less r..