MInference 1.0
長文脈大型言語モデルのプリフィル処理を高速化します。
一般製品プログラミング自然言語処理機械学習
MInference 1.0 は、長シーケンス処理のプリフィル段階を高速化することを目的とした疎計算手法です。長文脈注意行列における3つの独自の模式を識別することにより、長文脈大型言語モデル(LLM)に対する動的疎注意機構を実現し、1Mトークンのプリフィル段階を高速化しつつ、LLMの能力、特に検索能力を維持します。
MInference 1.0 最新のトラフィック状況
月間総訪問数
672
直帰率
58.31%
平均ページ/訪問
2.2
平均訪問時間
00:01:19