Llm Inference 相关的热门 GitHub AI项目仓库

+9today

Mistral Inference

llm

Mistral 模型的官方推理库

10177

PowerInfer

large-language-models

本地部署的高速大型语言模型服务

8172

22小时前

BentoML

ai-inference

轻松构建AI应用和模型服务 - 快速创建模型推理API、作业队列、大型语言模型(LLM)应用、多模型管道等等！

7625

8个月前

Lmdeploy

codellama

LMDeploy 是一款用于压缩、部署和服务大型语言模型 (LLM) 的工具包。

6111

+5today

Superduper

Superduper：无需迁移数据，即可在你现有的数据基础设施和首选工具上构建端到端的AI应用和智能体工作流程。

5029

Awesome LLM Inference

awesome-llm

一份精选的关于大语言模型/大视觉语言模型推理的优秀论文及代码清单，涵盖了WINT8/4、Flash-Attention、Paged-Attention、并行化等技术。

3840

+5today

Deepsparse

computer-vision

面向 CPU 的，考虑稀疏性的深度学习推理运行时

3132

2天前

GenerativeAIExamples

gpu-acceleration

针对加速型基础设施和微服务架构优化的生成式 AI 参考工作流程。

2996

2天前

Lorax

fine-tuning

能够扩展到数千个微调大型语言模型的多模型LoRA推理服务器

2946

Flashinfer

cuda

FlashInfer：大型语言模型（LLM）服务内核库

2672

+5today

Dbrx

databricks

Databricks开发的大型语言模型DBRX的代码示例和资源

2550

MiniMax 01

chat-api

MiniMax-01 是一种简单的极小极大算法实现，这是一种广泛用于两人轮流进行的棋类游戏（例如井字棋）决策制定的策略。该算法旨在最大限度地减少玩家可能遭受的最大损失，使其成为开发各种游戏场景中 AI 对手的热门选择。

2513

5小时前

+7today

Medusa

llm

美杜莎：一个利用多解码头加速大语言模型生成的简单框架

2497

5小时前

Archgw

ai-gateway

智能代理（边缘和大型语言模型）代理。Arch能够处理构建代理应用程序中繁琐的复杂工作，从而加快您的开发速度。它具有快速的任务澄清、代理路由、提示与常用工具的无缝集成以及对大型语言模型的统一访问和可观察性等功能。

2377

7小时前

+10today

Intel Extension For Transformers

4-bits

在您喜爱的设备上几分钟内构建您的聊天机器人；提供最先进的LLM压缩技术；在英特尔平台上高效运行LLM。

2169

2天前

Distributed Llama

distributed-computing

将家用设备连接成强大的集群以加速大语言模型推理。设备越多，推理速度越快。

2023

9小时前