AIニュース

AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

AIマネタイズガイド

最新事例

AIマネタイズ事例の共有

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

最新チュートリアル

最新のAIチュートリアルを無料で共有

AIプロダクトランキング

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

人気のある国ランキング

アメリカ合衆国

米国のユーザーに最も人気のあるAIウェブサイト

中国

中国のユーザーに最も人気のあるAIウェブサイト

インド

インドのユーザーに最も人気のあるAIウェブサイト

ブラジル

ブラジルのユーザーに最も人気のあるAIウェブサイト

人気のあるカテゴリランキング

画像生成

AI画像生成ウェブサイトの総訪問数ランキング

パーソナルアシスタント

AIパーソナルアシスタントウェブサイトの総訪問数ランキング

キャラクター生成

AIキャラクター生成ウェブサイトの総訪問数ランキング

ビデオ生成

AIビデオ生成ウェブサイトの総訪問数ランキング

人気のあるオープンソースデータランキング

AIプロジェクトランキング

GitHubの人気のあるAIプロジェクトを総スター数でランキング

AIプロジェクト成長ランキング

GitHubの人気のあるAIプロジェクトを成長率でランキング

AI開発者ランキング

GitHubの人気のあるAI開発者ランキング

AI組織ランキング

GitHubの人気のあるAI組織ランキング

人気のあるオープンソースカテゴリ

Deepseek

GitHubの人気のあるDeepseekオープンソースプロジェクト

TTS

GitHubの人気のあるTTSオープンソースプロジェクト

LLM

GitHubの人気のあるLLMオープンソースプロジェクト

ChatGPT

GitHubの人気のあるChatGPTオープンソースプロジェクト

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

Sesame CSM

テキストと音声入力から高品質の音声を生成する、対話型音声生成モデルです。

プレミアム新製品生産性音声合成人工知能

ウェブサイトを開く

CSMは、Sesameが開発した対話型音声生成モデルであり、テキストと音声入力に基づいて高品質の音声を生成できます。このモデルはLlamaアーキテクチャに基づいており、Mimiオーディオエンコーダーを使用しています。主に音声合成とインタラクティブな音声アプリケーション（音声アシスタントや教育ツールなど）に使用されます。CSMの主な利点は、自然で滑らかな音声を生成できること、そしてコンテキスト情報を使用して音声出力を最適化できることです。このモデルは現在オープンソースであり、研究や教育目的で使用できます。

Sesame CSM

ウェブサイトを開く

Sesame CSM 最新のトラフィック状況

月間総訪問数

521149929

直帰率

35.96%

平均ページ/訪問

6.1

平均訪問時間

00:06:29

Sesame CSM 訪問数の傾向

Sesame CSM 訪問地理的分布

Sesame CSM トラフィックソース

Sesame CSM 代替品

Orpheus TTS — 人間の音声の自然さを目指したオープンソースのテキスト読み上げシステムです。

•テキスト読み上げ•オープンソース

Sesame CSM — テキストと音声入力から高品質の音声を生成する、対話型音声生成モデルです。

•音声合成•人工知能

IndexTTS — 産業レベルで制御可能な、効率的なゼロショットテキスト音声変換システム

•音声合成•人工知能

Agno — 多様なモダリティを持つエージェントを構築するための軽量ライブラリです。

•マルチモーダルエージェント•オープンソース

Fin-R1 — 強化学習によって駆動される金融推論の大規模言語モデル。

•金融•人工知能

Mistral Small 3.1 — テキストとビジョンタスク処理能力を強化したオープンソースモデル。

•マルチモーダル•テキスト処理

Light-R1 — Light-R1は、長鎖推論（Long COT）に特化したオープンソースプロジェクトであり、コース形式のSFT、DPO、RLを用いてゼロから訓練する方法を提供します。

プログラミング

•人工知能•長鎖推論

IMM — Inductive Moment Matchingは、高品質な画像生成に使用される新しいタイプの生成モデルです。

•生成モデル•画像生成

Instella — Instellaは、AMDが開発した高性能なオープンソース言語モデルであり、オープンソース言語モデルの発展を加速するために設計されています。

プログラミング

•オープンソース•言語モデル

Llasa — Llamaフレームワークに基づくTTS基礎モデルで、16万時間のトークン化された音声データに対応しています。

•音声合成•人工知能

Migician — Migicianは、複数の画像の配置に特化した多モーダル大規模言語モデルであり、自由形式の複数の画像の精密配置を実現できます。

•多モーダル•画像配置

Octave TTS — Octave TTSは、テキストの意味を理解できる最初の音声合成モデルであり、感情豊かで風格のある音声を生成できます。

国際セレクション

•音声合成•人工知能

QwQ-Max-Preview — QwQ-Max-Previewは、Qwenシリーズの最新成果であり、Qwen2.5-Maxを基盤として構築されています。強力な推論能力と多様な分野への適用能力を備えています。

中国セレクション

•人工知能•深層学習

AlphaMaze-v0.2-1.5B — 大規模言語モデルの視覚推論能力を向上させるための、テキスト迷路解決タスクを用いた革新的な手法

•人工知能•言語モデル

The Ultra-Scale Playbook — 超大規模システムの設計と最適化に特化したツールで、効率的なソリューションを提供します。

国際セレクション

•超大規模システム•最適化

SkyReels-V1-Hunyuan-I2V — SkyReels V1は、人間中心の高品質映画レベルの動画生成に特化したオープンソースの基礎モデルです。

•動画生成•人工知能

OpenThinker-32B — OpenThinker-32Bは、オープンデータ推論能力の向上を目的として設計された、強力なオープンソース推論モデルです。

プログラミング

•人工知能•推論モデル

OLMoEアプリ — Ai2 OLMoEは、iOSデバイスで動作するオープンソースの言語モデルアプリです。

国際セレクション

•オープンソース•言語モデル

Huginn-0125 — Huginn-0125は、35億パラメータを持つ潜在変数循環型深層モデルであり、推論とコード生成に優れています。

プログラミング

•人工知能•深層学習

FireRedASR — オープンソースの工業レベル標準中国語自動音声認識モデルで、様々なアプリケーションシナリオに対応しています。

•音声認識•人工知能

RAG-FiT

RAG-FiT — RAG-FiTは、外部情報を活用するLLMの能力向上のためのライブラリです。特別に作成されたRAG強化データセットを用いてモデルをファインチューニングします。

プログラミング

•人工知能•自然言語処理

Codename Goose — ローカルで動作するAIエージェント。エンジニアリングタスクをシームレスに自動化します。

国際セレクション

•人工知能•プログラミング支援

オープンソース DeepResearch — オープンソースの深層研究ツール。オープンソースフレームワークを用いて、Deep Researchに類似した機能を実現することを目指しています。

プログラミング

•オープンソース•人工知能

Tülu 3 405B — Tülu 3 405Bは、強化学習によって性能を向上させた大規模なオープンソース言語モデルです。

プログラミング

•人工知能•自然言語処理

SpeechGPT 2.0-プレビュー — 文脈理解に基づいた、人間レベルのリアルタイム双方向対話システムです。多様な感情表現と音声スタイルに対応しています。

•音声対話•人工知能

leapfusion-hunyuan-image2video — Hunyuanモデルに基づいた、高品質な動画生成を実現する革新的な画像から動画への変換技術です。

•人工知能•動画生成

Llasa-1B — Llasa-1Bは、LLaMAを基盤としたテキスト読み上げ（TTS）モデルであり、中国語と英語の音声合成に対応しています。

•テキスト読み上げ•音声合成

Baichuan-M1-14B — 百川智能が開発した、医療現場向けに最適化されたオープンソースの大規模言語モデルです。優れた汎用性と医療分野での高い性能を備えています。

•大規模言語モデル•医療

FilmAgent

FilmAgent — FilmAgentは、LLM（大規模言語モデル）に基づくマルチエージェント協調フレームワークであり、仮想3D空間におけるエンドツーエンドの映画自動制作に使用されます。

•人工知能•映画制作

DeepSeek-R1 — DeepSeek-R1は、高性能な推論モデルであり、複数の言語とタスクに対応し、研究や商用アプリケーションに適しています。

中国セレクション

•人工知能•推論モデル