AIニュース

AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

AIマネタイズガイド

最新事例

AIマネタイズ事例の共有

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

最新チュートリアル

最新のAIチュートリアルを無料で共有

AIプロダクトランキング

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

人気のある国ランキング

アメリカ合衆国

米国のユーザーに最も人気のあるAIウェブサイト

中国

中国のユーザーに最も人気のあるAIウェブサイト

インド

インドのユーザーに最も人気のあるAIウェブサイト

ブラジル

ブラジルのユーザーに最も人気のあるAIウェブサイト

人気のあるカテゴリランキング

画像生成

AI画像生成ウェブサイトの総訪問数ランキング

パーソナルアシスタント

AIパーソナルアシスタントウェブサイトの総訪問数ランキング

キャラクター生成

AIキャラクター生成ウェブサイトの総訪問数ランキング

ビデオ生成

AIビデオ生成ウェブサイトの総訪問数ランキング

人気のあるオープンソースデータランキング

AIプロジェクトランキング

GitHubの人気のあるAIプロジェクトを総スター数でランキング

AIプロジェクト成長ランキング

GitHubの人気のあるAIプロジェクトを成長率でランキング

AI開発者ランキング

GitHubの人気のあるAI開発者ランキング

AI組織ランキング

GitHubの人気のあるAI組織ランキング

人気のあるオープンソースカテゴリ

Deepseek

GitHubの人気のあるDeepseekオープンソースプロジェクト

TTS

GitHubの人気のあるTTSオープンソースプロジェクト

LLM

GitHubの人気のあるLLMオープンソースプロジェクト

ChatGPT

GitHubの人気のあるChatGPTオープンソースプロジェクト

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

PaliGemma

Googleが開発した最先端のオープンソース視覚言語モデル

プレミアム新製品画像視覚言語モデル画像理解

ウェブサイトを開く

PaliGemmaは、Googleが公開した高度な視覚言語モデルです。画像エンコーダSigLIPとテキストデコーダGemma-2Bを組み合わせることで、画像とテキストの理解、そしてそれらの相互作用を理解することを可能にしています。画像キャプション生成、視覚的質問応答、セグメンテーションなどの特定の下流タスク向けに設計されており、研究開発において重要なツールです。

PaliGemma

ウェブサイトを開く

PaliGemma 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

PaliGemma 訪問数の傾向

PaliGemma 訪問地理的分布

PaliGemma トラフィックソース

PaliGemma 代替品

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

•視覚言語モデル•マルチモーダル

PaliGemma — Googleが開発した最先端のオープンソース視覚言語モデル

•視覚言語モデル•画像理解

Phi-3.5-vision — 画像とテキストの理解をサポートする、高度なマルチモーダルモデルです。

プログラミング

•マルチモーダル•画像理解

InternLM-XComposer-2.5 — 多機能大型視覚言語モデル

•視覚言語モデル•長文コンテキスト処理

MiniGemini — 画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。

プログラミング

•マルチモーダル•視覚言語モデル

Pali3 — PaLI-3 视觉言語モデル：小型、高速、高性能

•視覚言語モデル•画像エンコーディング

MeshifAI — テキストを瞬時に驚くほど精巧な3Dモデルに変換します。

•3Dモデル•AI技術

DeepSeek-V3-0324 — 様々な対話アプリケーションに適した、強力なテキスト生成モデルです。

世界的トレンド

•テキスト生成•対話システム

o1-pro — o1-proモデルは強化学習により複雑な推論能力を向上させ、より最適な回答を提供します。

世界的トレンド

•人工知能•自然言語処理

ヴェネツィア — プライバシーを重視し、検閲のないAIプラットフォーム。テキスト、画像、コード生成などの機能を提供します。

•人工知能•プライバシー保護

SmolVLM2 — SmolVLM2は、動画コンテンツの分析と生成に特化した軽量言語モデルです。

•動画分析•テキスト生成

Firecrawl LLMs.txt ジェネレーター — LLMのトレーニングと推論のために、ウェブサイトを統合したテキストファイルを生成するツール

•LLM•テキスト生成

Aya Vision 8B — 8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。

•多言語•視覚言語モデル

QwQ-32B — QwQ-32Bは、複雑な問題解決とテキスト生成のために設計された、強力な推論モデルであり、優れたパフォーマンスを発揮します。

•推論•テキスト生成

Figure AI Helix — Helixは、汎用人型ロボット制御のための視覚・言語・行動モデルです。

•人工知能•ロボット工学

Magma-8B — Magma-8Bは、マイクロソフトが開発したマルチモーダルAIモデルであり、画像とテキストの入力を処理してテキスト出力を生成します。

•マルチモーダル•画像

SigLIP2 — SigLIP2は、Googleが開発した、ゼロショット画像分類に使用される多言語視覚言語エンコーダーです。

•多言語•ゼロショット分類

VLM-R1 — VLM-R1は、安定性と汎用性に優れた強化学習に基づくビジュアル言語モデルであり、画像理解タスクに特化しています。

•ビジュアル言語モデル•強化学習

Janus Pro — Janus Proは、高度なAI画像生成と理解プラットフォームであり、高品質のビジュアルインテリジェンスサービスを提供します。

•画像生成•画像理解

s1-32B — s1は、Qwen2.5-32B-Instructを微調整した推論モデルであり、わずか1000サンプルでトレーニングされています。

•テキスト生成•推論モデル

Xwen-Chat — Xwen-Chatは、日本語対話に特化した大規模言語モデルの集合体であり、複数バージョンのモデルと自然言語生成サービスを提供します。

•言語モデル•日本語対話

R1-V

R1-V — 低コストで視覚言語モデルの汎化能力を強化。わずか3ドル未満。

プログラミング

•強化学習•視覚言語モデル

SmolVLM-256M-Instruct — SmolVLM-256Mは、世界最小級のマルチモーダルモデルであり、画像とテキストの入力を効率的に処理してテキスト出力を生成します。

•マルチモーダル•画像処理

VideoLLaMA3 — VideoLLaMA3は、画像と動画の理解に特化した最先端のマルチモーダル基盤モデルです。

•マルチモーダル•動画理解

DeepSeek-R1-Distill-Qwen-14B — DeepSeek-R1-Distill-Qwen-14Bは、様々な推論と生成タスクに適した高性能テキスト生成モデルです。

プログラミング

•自然言語処理•テキスト生成

DeepSeek-R1-Distill-Qwen-32B — DeepSeek-R1-Distill-Qwen-32Bは、多様なテキスト生成タスクに適した高性能のオープンソース言語モデルです。

•テキスト生成•強化学習

AI ContentCraft — AI ContentCraftは、テキスト生成、音声合成、画像生成機能を統合した多機能コンテンツ作成ツールです。

•コンテンツ作成•テキスト生成

Textoon — Textoonは、テキストによる説明から生き生きとした2Dの漫画風キャラクターを生成する革新的なツールです。

•テキスト生成•2D漫画

InternLM3 — InternLM3は、テキスト生成に特化したモデル群であり、様々なニーズに対応するため複数の最適化バージョンを提供しています。

•自然言語処理•テキスト生成