AIニュース

AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

AIマネタイズガイド

最新事例

AIマネタイズ事例の共有

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

最新チュートリアル

最新のAIチュートリアルを無料で共有

AIプロダクトランキング

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

人気のある国ランキング

アメリカ合衆国

米国のユーザーに最も人気のあるAIウェブサイト

中国

中国のユーザーに最も人気のあるAIウェブサイト

インド

インドのユーザーに最も人気のあるAIウェブサイト

ブラジル

ブラジルのユーザーに最も人気のあるAIウェブサイト

人気のあるカテゴリランキング

画像生成

AI画像生成ウェブサイトの総訪問数ランキング

パーソナルアシスタント

AIパーソナルアシスタントウェブサイトの総訪問数ランキング

キャラクター生成

AIキャラクター生成ウェブサイトの総訪問数ランキング

ビデオ生成

AIビデオ生成ウェブサイトの総訪問数ランキング

人気のあるオープンソースデータランキング

AIプロジェクトランキング

GitHubの人気のあるAIプロジェクトを総スター数でランキング

AIプロジェクト成長ランキング

GitHubの人気のあるAIプロジェクトを成長率でランキング

AI開発者ランキング

GitHubの人気のあるAI開発者ランキング

AI組織ランキング

GitHubの人気のあるAI組織ランキング

人気のあるオープンソースカテゴリ

Deepseek

GitHubの人気のあるDeepseekオープンソースプロジェクト

TTS

GitHubの人気のあるTTSオープンソースプロジェクト

LLM

GitHubの人気のあるLLMオープンソースプロジェクト

ChatGPT

GitHubの人気のあるChatGPTオープンソースプロジェクト

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

EMOVA

感情豊かなマルチモーダル言語モデル

一般製品その他マルチモーダル音声認識

ウェブサイトを開く

EMOVA（EMotionally Omni-present Voice Assistant）は、エンドツーエンドの音声処理を行いながら、最先端のビジュアル言語性能を維持するマルチモーダル言語モデルです。意味と音響を分離する音声セグメンターにより、感情豊かなマルチモーダルな対話を実現し、ビジュアル言語と音声のベンチマークテストで最先端の性能を達成しています。

EMOVA

ウェブサイトを開く

EMOVA 最新のトラフィック状況

月間総訪問数

データなし

直帰率

データなし

平均ページ/訪問

データなし

平均訪問時間

データなし

EMOVA 訪問数の傾向

訪問数データなし

EMOVA 訪問地理的分布

地理的分布データなし

EMOVA トラフィックソース

トラフィックソースデータなし

EMOVA 代替品

EMOVA

EMOVA — 感情豊かなマルチモーダル言語モデル

•マルチモーダル•音声認識

Phi-4-multimodal-instruct — Phi-4-multimodal-instructは、Microsoftが開発した軽量のマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートします。

•マルチモーダル•音声認識

ultravox-v0_4_1-llama-3_1-70b — 多様な音声に対応する大規模言語モデル

•音声認識•テキスト生成

Spirit LM — テキストと音声統合のマルチモーダル言語モデル

•マルチモーダル•言語モデル

Mini-Omni — リアルタイム音声入力とストリーミング音声出力をサポートする、オープンソースのマルチモーダル大規模言語モデルです。

•マルチモーダル•音声認識

SenseVoiceSmall — 多言語対応の高精度音声認識モデル

•音声認識•感情分析

SenseVoice — 多言語音声理解モデル。高精度音声認識と感情認識を提供します。

•音声認識•感情分析

GPT4o.so — 革命的なAI技術、マルチモーダルインテリジェントインタラクション

•人工知能•マルチモーダル

Gemini 1.5 Flash — Googleが開発した、大規模かつ高頻度のタスク向けに設計された、軽量かつ高性能なAIモデルです。

•機械学習•マルチモーダル

Any GPT — マルチモーダル大規模言語モデル

•マルチモーダル•チャットボット

小氷 — 何百万もの人々の中のあなた

中国セレクション

•チャットボット•インテリジェントな会話

DreamActor-M1 — DiTベースのヒューマンイメージアニメーションフレームワークであり、精細な制御と長期的な一貫性を実現します。

•ヒューマンアニメーション•ビデオ生成

Mistral Small 3.1 — テキストとビジョンタスク処理能力を強化したオープンソースモデル。

•マルチモーダル•テキスト処理

MistralOCR.net — Mistral OCR は、PDF や画像からテキスト、画像、表、数式を非常に高い精度で抽出できる強力なドキュメント理解 OCR 製品です。

•文書処理•OCR

Gemini Robotics — Gemini 2.0ベースのロボットモデル。AIを物理世界にもたらし、視覚、言語、動作能力を備えています。

国際セレクション

•人工知能•ロボット

R1-Omni — R1-Omniは、強化学習を組み合わせた全モーダル感情認識モデルであり、マルチモーダル感情認識の解釈性の向上に焦点を当てています。

プログラミング

•マルチモーダル•感情認識

OpenAI Agents SDK — OpenAI Agents SDKは、自律型エージェントを構築するための開発キットであり、複数エージェントワークフローのオーケストレーションを簡素化します。

国際セレクション

•人工知能•エージェント

SmolVLM2 — SmolVLM2は、動画コンテンツの分析と生成に特化した軽量言語モデルです。

•動画分析•テキスト生成

Inception Labs — Inception Labsは、次世代の拡散型大規模言語モデルを発表し、極めて高速で効率的で高品質な言語生成能力を提供します。

国際セレクション

•人工知能•言語モデル

Currents AI — AIソーシャルメディア深層調査ツール。リアルタイムの市場洞察と感情分析を提供します。

•市場調査•ソーシャルメディア分析

音刻 — 音刻書き起こしは、迅速、正確、スムーズな音声・ビデオ書き起こしツールです。

中国セレクション

•書き起こし•音声認識

DuRT — DuRTはmacOS向けのリアルタイム音声認識と翻訳ソフトウェアで、効率的で正確な音声処理サービスを提供することに重点を置いています。

•音声認識•翻訳

EgoLife — EgoLifeは、長期的なコンテキスト理解研究を推進することを目的とした、長期、マルチモーダル、多角的な日常生活AIアシスタントプロジェクトです。

•マルチモーダル•多角的

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

•人工知能•視覚生成

Mochii AI — Mochii AIは、最先端のモデルを基盤としたパーソナライズされたAIエコシステムであり、人間とAIの協働の未来を支援します。

中国セレクション

•人工知能•生産性ツール

ElevenLabs Scribe — Scribeは、99言語に対応する世界で最も正確な音声テキスト変換モデルです。

•音声認識•多言語対応

M2RAG — マルチモーダルコンテキストにおける検索強化生成のためのベンチマークテストコードリポジトリです。

プログラミング

•マルチモーダル•検索強化生成

TheoremExplainAgent — TheoremExplainAgentは、マルチモーダルな定理解説動画を生成するためのインテリジェントシステムです。

•人工知能•教育

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Liteは、長文処理と多様なアプリケーションシナリオ向けに最適化された、高効率な言語モデルです。

•言語モデル•長文処理

Magma-8B — Magma-8Bは、マイクロソフトが開発したマルチモーダルAIモデルであり、画像とテキストの入力を処理してテキスト出力を生成します。

•マルチモーダル•画像