AIニュース

AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

最新事例

AIマネタイズ事例の共有

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

最新チュートリアル

最新のAIチュートリアルを無料で共有

AIプロダクトランキング

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

人気のある国ランキング

アメリカ合衆国

米国のユーザーに最も人気のあるAIウェブサイト

中国

中国のユーザーに最も人気のあるAIウェブサイト

インド

インドのユーザーに最も人気のあるAIウェブサイト

ブラジル

ブラジルのユーザーに最も人気のあるAIウェブサイト

人気のあるカテゴリランキング

画像生成

AI画像生成ウェブサイトの総訪問数ランキング

パーソナルアシスタント

AIパーソナルアシスタントウェブサイトの総訪問数ランキング

キャラクター生成

AIキャラクター生成ウェブサイトの総訪問数ランキング

ビデオ生成

AIビデオ生成ウェブサイトの総訪問数ランキング

人気のあるオープンソースデータランキング

AIプロジェクトランキング

GitHubの人気のあるAIプロジェクトを総スター数でランキング

AIプロジェクト成長ランキング

GitHubの人気のあるAIプロジェクトを成長率でランキング

AI開発者ランキング

GitHubの人気のあるAI開発者ランキング

AI組織ランキング

GitHubの人気のあるAI組織ランキング

人気のあるオープンソースカテゴリ

Deepseek

GitHubの人気のあるDeepseekオープンソースプロジェクト

TTS

GitHubの人気のあるTTSオープンソースプロジェクト

LLM

GitHubの人気のあるLLMオープンソースプロジェクト

ChatGPT

GitHubの人気のあるChatGPTオープンソースプロジェクト

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

SigLIP2

SigLIP2は、Googleが開発した、ゼロショット画像分類に使用される多言語視覚言語エンコーダーです。

一般製品画像多言語ゼロショット分類

ウェブサイトを開く

SigLIP2は、Googleが開発した多言語視覚言語エンコーダーで、改良された意味理解、局所化、および高密度特徴を備えています。ゼロショット画像分類に対応しており、追加のトレーニングなしで、テキスト記述から直接画像を分類できます。多言語環境で優れたパフォーマンスを発揮し、様々な視覚言語タスクに適用可能です。主な利点としては、効率的な言語画像アライメント能力、様々な解像度と動的解像度調整のサポート、強力なクロスリンガル汎化能力などが挙げられます。SigLIP2の登場は、特に迅速な展開と多言語サポートが必要な場面において、多言語視覚タスクに新たなソリューションを提供します。

SigLIP2

ウェブサイトを開く

SigLIP2 最新のトラフィック状況

月間総訪問数

27175375

直帰率

44.30%

平均ページ/訪問

5.8

平均訪問時間

00:04:57

SigLIP2 訪問数の傾向

SigLIP2 訪問地理的分布

SigLIP2 トラフィックソース

SigLIP2 代替品

SigLIP2 — SigLIP2は、Googleが開発した、ゼロショット画像分類に使用される多言語視覚言語エンコーダーです。

•多言語•ゼロショット分類

Aya Vision 8B — 8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。

•多言語•視覚言語モデル

CLaMP 3 — CLaMP 3は、クロスモーダルかつクロスリンガルの音楽情報検索のための統合フレームワークです。

•音楽情報検索•マルチモーダル

聴脳 AI — スマート会議アシスタント。会議内容のリアルタイム文字起こしと言葉要約を実現します。

中国セレクション

•会議アシスタント•音声文字起こし

Versatile-OCR-Program — 機械学習向けに最適化されたマルチモーダルOCRパイプラインです。

•OCR•機械学習

Embra.ai — Embraは、ワークフローを簡素化し、営業と製品開発の効率を向上させることを目的としたAIオペレーティングシステムです。

•会議記録•タスク管理

Gemini Embedding テキスト埋め込みモデル — Gemini Embeddingは、Gemini APIを通じて強力な言語理解能力を提供する、高度なテキスト埋め込みモデルです。

プログラミング

•テキスト埋め込み•自然言語処理

Hugo Translator — LLMベースの記事翻訳ツール。多言語Markdownファイルを自動翻訳して作成します。

•LLM•翻訳

Aya Vision 32B — Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。

•多言語•ビジュアル言語

Aya Vision — Aya Visionは、Cohereが提供する多言語・多モーダルなビジュアルモデルであり、多言語環境における視覚とテキストの理解能力の向上を目指しています。

国際セレクション

•多言語•多モーダル

Llasa — Llamaフレームワークに基づくTTS基礎モデルで、16万時間のトークン化された音声データに対応しています。

•音声合成•人工知能

LLaDA — LLaDAは大規模言語拡散モデルであり、強力な言語生成能力を備えており、LLaMA3 8Bと同等の性能を有します。

•言語生成•多言語

Deep Research Web UI — DeepSeek R1をサポートするAI駆動型のリサーチアシスタントで、検索エンジン、Webクローラー、大規模言語モデルを組み合わせて深層的なリサーチを行います。

•研究•Web

スマート翻訳アシスタント — ワンストップの多言語翻訳ソリューション。テキスト、画像、PDF、音声、動画翻訳に対応

•翻訳•多言語

Phind.com — Phindは、多言語と複数の検索機能をサポートする高度な人工知能検索ツールです。

•人工知能•検索

Phi-4-multimodal-instruct — Phi-4-multimodal-instructは、Microsoftが開発した軽量のマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートします。

•マルチモーダル•音声認識

Figure AI Helix — Helixは、汎用人型ロボット制御のための視覚・言語・行動モデルです。

•人工知能•ロボット工学

Step-Audio — Step-Audioは、多言語対応、感情表現、音声クローンなどの機能を備えたオープンソースのインテリジェント音声対話フレームワークです。

•音声対話•多言語

R1-V

R1-V — 低コストで視覚言語モデルの汎化能力を強化。わずか3ドル未満。

プログラミング

•強化学習•視覚言語モデル

PengChengStarling — PengChengStarlingは、icefallプロジェクトをベースとした多言語自動音声認識（ASR）モデル開発ツールキットです。

プログラミング

•多言語•自動音声認識

風車AI翻訳 — 風車AI翻訳は、画像・動画翻訳とスマートな背景除去など、多様なモダリティに対応した翻訳サービスを提供し、海外進出を支援します。

中国セレクション

•AI翻訳•越境EC

Kokoro TTS — StyleTTS 2アーキテクチャを基盤とした、8200万パラメーターを備える高度なAIテキスト音声変換モデルです。高品質で自然な音声合成を提供します。

•テキスト音声変換•多言語

TalkAI英会話練習

TalkAI英会話練習 — 最先端AIで60以上の言語を学習し、言語の壁を乗り越え、英会話力を向上させましょう。

•英会話学習•多言語

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8Bは、テキスト生成と推論タスクに適した高性能なオープンソース言語モデルです。

•言語モデル•推論

Chooat — Chooatは、多様なAIモデルとツールを提供する多機能AIチャットプラットフォームで、創造性と生産性の向上を支援します。

•生産性•ライティング

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Qwen2.5-32Bモデルをベースとした4ビット量子化バージョンです。高効率推論と低リソース環境での展開を目的として設計されています。

プログラミング

•言語モデル•量子化

vdr-2b-multi-v1 — 多言語対応の埋め込みモデルで、ビジュアルドキュメント検索に使用されます。

•多言語•ビジュアルドキュメント検索

voyage-3-large — 複数の分野で卓越した性能を発揮する、最新鋭の多言語汎用埋め込みモデルです。

プログラミング

•人工知能•埋め込みモデル

PaliGemma 2-3b-pt-224 — PaliGemma 2は、多言語に対応した画像とテキストの処理タスクをサポートする強力な視覚言語モデルです。

プログラミング

•視覚言語モデル•多言語サポート

PaliGemma 2-3b-pt-448 — PaliGemma 2は、多様な視覚言語タスクに対応する強力な視覚言語モデルです。

プログラミング

•視覚言語モデル•多言語サポート