vLLM

高速で使いやすいLLM推論とサービスプラットフォーム

国際セレクションプログラミングLLM推論
vLLMは、大規模言語モデル(LLM)の推論とサービス提供のための、高速で使いやすく、効率的なライブラリです。最新のサービススループット技術、効率的なメモリ管理、連続バッチ処理リクエスト、CUDA/HIPグラフによる高速モデル実行、量子化技術、最適化されたCUDAカーネルなどを用いることで、高性能な推論サービスを提供します。vLLMは、人気のHugging Faceモデルとのシームレスな統合をサポートし、並列サンプリング、ビームサーチなど、様々なデコードアルゴリズムに対応しています。テンソル並列性をサポートし、分散推論に適しており、ストリーミング出力に対応し、OpenAI APIサーバーとの互換性があります。さらに、NVIDIAとAMDのGPU、実験的なプレフィックスキャッシュとマルチLoRAのサポートにも対応しています。
ウェブサイトを開く

vLLM 最新のトラフィック状況

月間総訪問数

584276

直帰率

48.64%

平均ページ/訪問

3.1

平均訪問時間

00:04:31

vLLM 訪問数の傾向

vLLM 訪問地理的分布

vLLM トラフィックソース

vLLM 代替品