BiTA

大语言模型的双向调节

普通产品生产力大型语言模型插件
BiTA是一种用于大型语言模型的双向调节方法,通过简化的半自回归生成和草稿验证来加速大型语言模型。BiTA作为一种轻量级的插件模块,能够无缝提升现有大型语言模型的推断效率,而无需额外的辅助模型或产生显著的额外内存成本。应用BiTA后,LLaMA-2-70B-Chat在MT-Bench基准测试上实现了2.7倍的加速。广泛的实验证实我们的方法超越了最先进的加速技术。
打开网站

BiTA 最新流量情况

月总访问量

21315886

跳出率

45.50%

平均页面访问数

5.2

平均访问时长

00:05:02

BiTA 访问量趋势

BiTA 访问地理位置分布

BiTA 流量来源

BiTA 替代品