FlashAttention

高速かつメモリ効率の高い正確なアテンション機構

一般製品プログラミング深層学習Transformer

FlashAttentionは、深層学習におけるTransformerモデル向けに設計された、オープンソースのアテンション機構ライブラリです。計算効率とメモリ使用効率の向上を目的としており、IO感知型のアプローチによってアテンション計算を最適化し、メモリ消費量を削減しつつ、正確な計算結果を維持します。FlashAttention-2では並列性とタスク割り当てがさらに改善され、FlashAttention-3ではHopper GPU向けに最適化され、FP16とBF16データ型をサポートしています。

Best AI Websites & Tools

FlashAttention

FlashAttention 最新のトラフィック状況

FlashAttention 訪問数の傾向

FlashAttention 訪問地理的分布

FlashAttention トラフィックソース

FlashAttention 代替品

FlashAttention — 高速かつメモリ効率の高い正確なアテンション機構

QwQ-32B — QwQ-32Bは、複雑な問題解決とテキスト生成のために設計された、強力な推論モデルであり、優れたパフォーマンスを発揮します。

DualPipe — V3/R1訓練における計算と通信のオーバーラップを実現する双方向パイプライン並列アルゴリズムです。

DeepGEMM — DeepGEMMは、効率的なFP8行列乗算のためのCUDAライブラリであり、細粒度スケーリングと様々な最適化技術をサポートしています。

FlashMLA — FlashMLAはHopper GPU向けに最適化された、高効率なMLAデコードカーネルです。可変長シーケンスサービスに適しています。

MoBA — MoBAは、長文コンテキストに対応した混合ブロックアテンション機構であり、大規模言語モデルの効率化を目的としています。

Janus-Pro-1B — Janus-Pro-1Bは、統一的な多様なモダリティを理解し生成する自己回帰フレームワークです。

Moonglow — ローカルのJupyter NotebookをリモートGPU上で簡単に実行

Megatron-LM — 大規模Transformerモデルの継続的な研究開発

Google Vision Transformer — Transformerに基づく画像認識モデル

HunyuanVideo-I2V — HunyuanVideo-I2Vは、テンセントがHunyuanVideoに基づいて開発した、画像から動画を生成するフレームワークです。

ART — 可変多層透明画像生成のための匿名領域変換技術です。

CogView4-6B — CogView4-6Bは、高品質な画像生成に特化した強力なテキストから画像への生成モデルです。

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

PhotoDoodle — PhotoDoodleは、少量のサンプルペアデータから芸術的な画像編集を学習するコード実装です。

DeepSeek Infraにおけるプロファイリングデータ — V3/R1における計算と通信のオーバーラップ戦略を分析し、深層学習フレームワークの性能分析データを提供します。

EPLB — エキスパート並列の負荷分散のためのオープンソースアルゴリズム。マルチGPU環境下でのエキスパートの割り当てと負荷分散を最適化することを目的としています。

DeepEP — DeepEPは、Mixture-of-Expertsと専門家並列通信のための効率的な通信ライブラリです。

FlexHeadFA — 高速かつメモリ効率の高い正確なアテンションメカニズム

QwQ-Max-Preview — QwQ-Max-Previewは、Qwenシリーズの最新成果であり、Qwen2.5-Maxを基盤として構築されています。強力な推論能力と多様な分野への適用能力を備えています。

Claude 3.7 Sonnet — Anthropic社が開発した最新のAIモデルで、高速な応答と高度な推論を両立します。

VLM-R1 — VLM-R1は、安定性と汎用性に優れた強化学習に基づくビジュアル言語モデルであり、画像理解タスクに特化しています。

The Ultra-Scale Playbook — 超大規模システムの設計と最適化に特化したツールで、効率的なソリューションを提供します。

BioEmu — BioEmuは、タンパク質平衡系アンサンブルを拡張可能なシミュレーションを行うための生成型深層学習モデルです。

FlashVideo — FlashVideoは、ディテールと忠実度の高い高解像度動画生成モデルです。

DeepSeekモデル互換性チェック — デバイスが様々な規模のDeepSeekモデルを実行できるかどうかを検出し、互換性を予測します。

Huginn-0125 — Huginn-0125は、35億パラメータを持つ潜在変数循環型深層モデルであり、推論とコード生成に優れています。

循環型事前学習モデル — 4096個のAMD GPU上で動作する大規模深層循環言語モデルの事前学習コードです。

InspireMusic — PyTorchベースの音楽、楽曲、オーディオ生成ツールキット。高品質オーディオ生成に対応

Lumina-Video — Lumina-Videoは、テキストからビデオを生成する試作プロジェクトです。