Nemotron-CC

Common Crawlを精緻化した、大規模言語モデルの長期事前学習用データセット

一般製品プログラミング人工知能データセット

Nemotron-CCは、Common Crawlを基にした6.3兆トークンのデータセットです。分類器の統合、合成データによる書き換え、そしてヒューリスティックなフィルタリングへの依存軽減を通じて、6.3兆トークンの大規模言語モデルの長期事前学習用データセットへと変換されています。これは、4.4兆トークンのグローバルに重複除去された生のトークンと、1.9兆トークンの合成生成トークンで構成されます。本データセットは、正確性とデータ量のバランスに優れ、大規模言語モデルの訓練に重要な役割を果たします。

Best AI Websites & Tools

Nemotron-CC

Nemotron-CC 最新のトラフィック状況

Nemotron-CC 訪問数の傾向

Nemotron-CC 訪問地理的分布

Nemotron-CC トラフィックソース

Nemotron-CC 代替品

Nemotron-CC — Common Crawlを精緻化した、大規模言語モデルの長期事前学習用データセット

ImageInWords — 超詳細な画像記述を生成するモデルであり、視覚言語モデルのトレーニングに使用されます。

FineWeb — 高品質英語ウェブデータセット

Instella — Instellaは、AMDが開発した高性能なオープンソース言語モデルであり、オープンソース言語モデルの発展を加速するために設計されています。

クローン — クローンは、革命的な人工筋肉技術Myofiberを搭載したヒューマノイドロボットで、自然な歩行が可能です。

Migician — Migicianは、複数の画像の配置に特化した多モーダル大規模言語モデルであり、自由形式の複数の画像の精密配置を実現できます。

IndexTTS — 産業レベルで制御可能な、効率的なゼロショットテキスト音声変換システム

TableGPT-agent — TableGPT2をベースとした、表データに基づく質疑応答タスクのための事前構築済みエージェントです。

Qwen — Qwen Chatは、最先端の言語モデルをベースとしたAIチャットツールです。スマートな会話と多様な機能を提供します。

Signs — 人工知能を活用してアメリカ手話（ASL）の学習と貢献を支援するプラットフォームです。

kg-gen — あらゆるテキストから知識グラフを抽出するAIツールです。

幻覚リーダーボード — 大型言語モデルが短い文書を要約する際に生じる幻覚を比較するためのランキングです。

コンシェルジュAI — 自然言語でアプリケーションとインタラクトし、業務効率と利便性を向上させます。

Zyphra — Zyphraは、人工知能技術に特化した企業であり、チャットモデルと関連サービスを提供しています。

RAG-FiT — RAG-FiTは、外部情報を活用するLLMの能力向上のためのライブラリです。特別に作成されたRAG強化データセットを用いてモデルをファインチューニングします。

Qwen2.5-Max — Qwen2.5-Maxは、大規模なMixture-of-Expert (MoE) モデルであり、モデルの知能向上を目指しています。

SCNet DeepSeek — DeepSeekは、効率的なAIによる会話サービスを提供するインテリジェントなチャットアシスタントです。

Xwen-Chat — Xwen-Chatは、日本語対話に特化した大規模言語モデルの集合体であり、複数バージョンのモデルと自然言語生成サービスを提供します。

Dolphin R1 — Dolphin R1は、推論モデルのトレーニングに使用される80万サンプルを含むデータセットです。

Tülu 3 405B — Tülu 3 405Bは、強化学習によって性能を向上させた大規模なオープンソース言語モデルです。

SpeechGPT 2.0-プレビュー — 文脈理解に基づいた、人間レベルのリアルタイム双方向対話システムです。多様な感情表現と音声スタイルに対応しています。

Tarsier — Tarsierは、バイトダンスが開発した、高品質なビデオ説明を生成するための、大規模なビデオ言語モデルです。

Baichuan-M1-14B — 百川智能が開発した、医療現場向けに最適化されたオープンソースの大規模言語モデルです。優れた汎用性と医療分野での高い性能を備えています。

UPDF AI — UPDF AIは、PDF文書の要約、翻訳、解説、書き換え、構想作成を支援し、読書効率を向上させます。

WebWalker — WebWalkerは、大規模言語モデルのウェブページ巡回能力を評価するためのベンチマークフレームワークです。

MiniMax-01 — 4,560億パラメーターを持つ強力な言語モデルで、最大400万トークンのコンテキストを処理可能です。

中文インターネット語料資源プラットフォーム — 高品質な中国語語料資源を提供し、人工知能大規模モデルの事前学習を支援します。

llm-datasets — 大規模言語モデルのファインチューニングに使用する、高品質なデータセット、ツール、概念集です。

Sonus-1 — Sonus-1：次世代大規模言語モデル（LLM）の幕開け

StoryWeaver — 知識増強型ストーリーキャラクターのカスタマイズのための統一世界モデル