SpacTor-T5

段落破壊と置換トークン検出を用いた事前学習済みT5モデル

一般製品プログラミングNLP事前学習モデル

SpacTorは、(1) 段落破壊（SC）とトークン置換検出（RTD）を組み合わせた混合目標、(2) 最初のτ回の反復で混合目標を最適化し、その後標準的なSC損失に移行する二段階学習課程、を含む新しい訓練手法です。エンコーダ-デコーダアーキテクチャ（T5）を用いて様々なNLPタスクで実験した結果、SpacTor-T5は、下流タスクにおける性能は標準的なSC事前学習と同等でありながら、事前学習の反復回数を50%、総FLOPsを40%削減しました。さらに、同じ計算予算下では、SpacTorは下流ベンチマークの性能を大幅に向上させることが分かりました。

混合目標を用いた訓練手法
段落破壊とトークン置換検出
二段階学習課程による最適化

自然言語処理タスクに適用可能な事前学習モデル

SpacTor-T5を用いたNLPタスクにおけるテキスト生成
SpacTor-T5を用いた感情分析
SpacTor-T5を用いた質疑応答システムにおける質問応答

ウェブサイトを開く

SpacTor-T5 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

SpacTor-T5 訪問数の傾向

SpacTor-T5 訪問地理的分布

Best AI Websites & Tools

SpacTor-T5

SpacTor-T5 最新のトラフィック状況

SpacTor-T5 訪問数の傾向

SpacTor-T5 訪問地理的分布

SpacTor-T5 トラフィックソース

SpacTor-T5 代替品

SpacTor-T5 — 段落破壊と置換トークン検出を用いた事前学習済みT5モデル

Magma — Magmaは、多様なモーダル入力の理解と実行が可能な基礎モデルであり、複雑なタスクや環境で使用できます。

ModernBERT-base — 長文テキストを効率的に処理する双方向エンコーダーモデル

FineWeb2 — 多言語事前学習済みデータセット

Meta Llama 3.3 — 70Bパラメーターの多言語大規模事前学習言語モデル

Aria-Base-64K — 多モーダルネイティブMixture-of-Expertsモデル

ViTLP — ドキュメントインテリジェンスのための、視覚誘導型テキストレイアウト生成事前学習モデル

Extractous — 高速・高効率の非構造化データ抽出ツール

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4 — 32億パラメーターのオープンソースコード生成言語モデル

Qwen2.5-Coder-0.5B-Instruct — Qwen2.5-Coderシリーズの指示微調整済み0.5Bパラメータコード生成モデル

Qwen2.5-Coder-3B — Qwen2.5-Coderシリーズの3Bパラメータモデル。コード生成と理解に特化しています。

Qwen2.5-Coder 技術レポート — Qwen2.5-Coderシリーズ技術レポート

Aya Expanse-8b — 23言語に対応した大規模言語モデル

プロンプトエンジニアリング — 包括的なプロンプトエンジニアリング技術リソース集

GenAI_Agents — 包括生成式AI代理開発と実装に関する包括的なリソース集

讯飞仮想人間 — 全栈型仮想人間による多様なシーンへの応用サービス

OLMoE — 1.3億の活性パラメーターを持つ、オープンソースのエキスパート混合言語モデルです。

OpenCity — 交通予測のためのオープンソース時空間基礎モデル

RAG技術集 — 画期的な検索強化生成システム技術の集積。

EXAONE-3.0-7.8B-Instruct — 7.8億パラメータのバイリンガル生成モデル

Meta-Llama-3.1-405B-Instruct-FP8 — 多言語対応の対話型生成モデル

Meta Llama 3.1-405B — 大規模多言語事前学習済み言語モデル

無憂スマート校正システム — AIとNLPを活用したテキストの自動校正・スマート修正システムです。

ViTMatte — 事前学習済み純粋ビジョン変換器による画像切り抜き技術の向上

Index-1.9B-Pure — 軽量の大規模言語モデルで、テキスト生成に特化しています。

Index-1.9B-Chat — 19億パラメーターによる対話生成モデル

雅意情報抽出大規模モデル — 大規模データに基づく高品質な情報抽出モデル

Qwen2 — 卓越な性能を誇る次世代多言語事前学習モデル。

GLM-4V-9B — オープンソースのマルチモーダル事前学習モデルで、中国語と英語の双方向対話機能を備えています。

GLM-4-9B-Chat-1M — 新世代のオープンソース事前学習モデル。複数回にわたる対話と多言語に対応しています。