Star-AttentionはNVIDIAが提案した新しいブロックスパース注意力機構であり、Transformerベースの大型言語モデル(LLM)の長系列における推論効率を向上させることを目的としています。この技術は二段階の操作によって推論速度を大幅に向上させながら、95~100%の精度を維持します。ほとんどのTransformerベースのLLMと互換性があり、追加のトレーニングや微調整なしで直接使用でき、Flash AttentionやKVキャッシュ圧縮技術などの他の最適化手法と組み合わせて使用することで、さらに性能を向上させることができます。