vllm-project/vllm

PythonApache License 2.0★ 85,411 stars

A high-throughput and memory-efficient inference and serving engine for LLMs

#amd#blackwell#cuda#deepseek#deepseek-v3#gpt#gpt-oss#inference#kimi#llama#llm#llm-serving#model-serving#moe#openai#pytorch#qwen#qwen3#tpu#transformerllm