Stability AIがオープンソースのオーディオ生成モデル「Stable Audio Open」を発表：最大47秒間のステレオオーディオ生成が可能

AIbase基地

公開日AIニュース · 1 分で読めます · Jul 23, 2024

174

最近、Stability AIチームは、Stable Audio Openという新しいオープンソースの音声生成モデルを発表しました。このモデルの特筆すべき点は、テキストプロンプトから最長47秒のステレオオーディオ（サンプリングレート44.1kHz）を生成できることです。

製品ページ：https://top.aibase.com/tool/stable-audio-open-demo

多くの最新のオーディオ生成モデルとは異なり、Stable Audio Openの重みは公開されており、誰でもモデルの閲覧、修正、拡張を行うことができます。この設計思想は、科学研究の進歩を促進するだけでなく、開発者により多くの可能性を提供します。さらに重要なのは、このモデルはCreative Commonsライセンスのオーディオファイルのみを使用してトレーニングされているため、データの合法性と著作権問題の回避が確保され、倫理的なデータ使用への高い配慮が示されています。

技術アーキテクチャの面では、Stable Audio Openは高度なアーキテクチャを採用しており、テキストからオーディオへの高忠実度の生成を保証します。高品質なステレオオーディオを生成できるため、ユーザーはクリアでリアルなサウンド体験を楽しむことができます。トレーニングプロセスでは、多様なオーディオサンプルが使用されており、より豊かなサウンドスケープを学習し、生成されるオーディオのリアルさと多様性を高めています。

さらに、新モデルのパフォーマンスが業界トップレベルのモデルに匹敵することを確認するために、開発チームは包括的な性能評価を実施しました。FDopenl3という重要な評価指標を用いて、研究者らは、このモデルが高品質なオーディオ生成において優れたパフォーマンスを示し、業界の他の優れたモデルと同等であることを発見しました。この比較研究は、Stable Audio Openの優位性と実用性をさらに証明しています。

Stable Audio Openの発表は、オープン性と高品質なオーディオ合成に焦点を当てるだけでなく、研究者、アーティスト、開発者にとって重要なツールを提供します。

要点：
- 🎧 Stability AIが、最長47秒、44.1kHzステレオオーディオの生成をサポートするオープンソースモデルStable Audio Openを発表。
- 📝 Creative Commonsライセンスのオーディオデータのみを使用してトレーニングされており、データの合法性と倫理性を確保。
- 🔍 業界トップレベルのモデルと比較して、Stable Audio Openのオーディオ生成品質は検証済みで、高忠実度と多様性を備えています。

AIニュース

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

GrokがDeeperSearch機能をリリース、リアルタイムAIニュース検索能力を向上

Mar 19, 2025

160

アップルのAIニュース要約機能が虚偽情報拡散で物議を醸す

アップル社が最近発表したAIニュース要約機能が、速報ニュースの要約において重大な誤りを繰り返し、ユーザーに大量の虚偽情報が伝わる事態を引き起こしている。この機能の発表以来、多くの報道機関やユーザーから、アップルの技術が未成熟であり、正確な情報を効果的に提供できないとして強い反発を受けている。ワシントンポスト紙のテクノロジーコラムニスト、ジェフリー・ファウラー氏がソーシャルメディアで、アップルのAIがニュース要約において事実を歪めたと投稿したと報じられている。

Jan 16, 2025

990

元Twitter幹部が開発したAIニュースアシスタントParticle：AIでニュース閲覧体験を刷新、1530万ドルの資金調達

現在のメディア業界がAIに対して慎重な姿勢をとる中、ParticleというAIニュース閲覧アプリがその状況を変えようとしています。元Twitterのエンジニアが開発したこのアプリは、ユーザーがニュースをより深く理解するのを支援するとともに、従来のメディア機関とのウィンウィン関係を模索しています。Particleは、元Twitterプロダクトマネジメント上級ディレクターのSara Beykpour氏と、元Twitterおよびテスラの上級エンジニアであるMarcel Molina氏によって共同設立されました。同社は、

Nov 13, 2024

3.0k

ElevenLabsリーダーアプリがAndroidで登場、32言語対応を追加

ElevenLabsが開発したモバイルリーダーアプリがAndroidプラットフォームに登場。テキスト読み上げ、PDF/ePubファイルの閲覧、高品質なAI音声合成技術を一体化し、場所を選ばずに文章を音声で楽しめる画期的なアプリです。テキストの読みやすさに関わらず、快適な読書体験を提供します。アメリカ、イギリス、カナダの3ヶ国語と、今後32言語への対応を予定しており、グローバル展開を間近に控えています。Judy GarlandやJames Deanなど、伝説的著名人の声を模倣するAI技術も搭載し、パーソナライズされた読書体験を提供します。

Jul 23, 2024

2.6k

日本のスーパー、AIで従業員の笑顔を監視　ネット上で「大げさだ」と批判の声

日本のイオン系のスーパーマーケットが、AIシステム「Smile-Kun」を使って従業員の笑顔を監視していることが明らかになった。従業員の笑顔や声の分析を通じて接客スキル向上を目指しているという。システムは特定のあいさつ方法を要求し、450個の微表情のポイントで100点満点で採点、リアルタイムでフィードバックする。さらに、音量や滑らかさ、トーンについても分析し、改善点を提案する。従業員の反応では笑顔の割合が大幅に増加したという。しかし、この取り組みは物議を醸しており、一部のネットユーザーからは従業員の個性や感情を過度に数値化しており、真心のこもったサービスとは程遠いとの批判が出ている。批判意見では、上下関係や

Jul 23, 2024

1.5k

マイクロソフト研究所、AIフレームワークE5-Vを発表：テキストペアの単一モーダル学習でマルチモーダル学習を簡素化、コスト削減

マイクロソフト研究所と北京航空航天大学の研究チームは、マルチモーダル大規模言語モデル（MLM）開発における課題解決を目指し、高効率なマルチモーダル埋め込みフレームワークE5-Vを発表しました。この革新的なフレームワークは、単一モーダル学習によってマルチモーダル学習プロセスを簡素化し、従来のモデルに見られた独立したエンコーダーへの依存と、それに伴う入力統合の非効率性を克服します。E5-Vはテキストと画像情報を統合することでトレーニングコストを削減し、テキスト-画像検索、画像検索など、複数の複雑なタスクにおいて優れた性能を示しました。特にゼロショット学習において…

Jul 23, 2024

2.0k

LensGo AI、FaceSync機能を発表　あなたの声と口元をターゲット画像に移行

LensGo AIがFaceSync機能を発表。ユーザーのパフォーマンスを画像やビデオにシンクロさせ、シームレスな視聴体験を提供します。ユーザーは自由な表現が可能になり、容姿に制限されません。AI技術を活用し、表情、音声、口元の正確なキャプチャとマッピングを実現。現在テスト段階にあり、技術の安定性と表現力の向上を目指して最適化を進めています。ユーザーの期待とプロフェッショナルな基準を満たし、無限の創造性を解き放つことを目指しています。

Jul 23, 2024

3.1k

Luma AI、Loops機能でテキストや画像からシームレスな無限ループ動画を生成

サンフランシスコに拠点を置くAI企業Luma AIが、Dream Machineプラットフォームの新機能「Loops」を発表しました。この機能により、テキスト、画像、またはキーフレームからワンクリックでシームレスで連続的なビデオループを作成できるようになり、動画制作プロセスが簡素化され、効率が大幅に向上します。特にコンテンツクリエイターやデジタルマーケティング担当者にとって、無限ループビデオが容易に作成できるようになり、制作時間とコストを大幅に削減できます。Luma AIの公式発表では...

Jul 23, 2024

7.7k

写真一枚から30秒で3Dモデル作成！Aiuni AI：Unique 3DオープンソースプロジェクトをベースにしたAI

デジタル時代において、3Dモデリングはゲーム、映画、デザイン業界などで重要な役割を果たしていますが、従来のモデリング手法は複雑で時間がかかり、コストも高額です。この問題を解決するため、あるウェブサイト（Aiuni AI）がAI技術を用いて、任意のRGB画像から高精度な3Dモデルをわずか30秒以内で生成することに成功しました。Unique3Dオープンソースプロジェクトをベースにしたこのウェブサイトは、深層学習と拡散モデル技術を用いて効率を大幅に向上させ、入力画像から直交多視点画像とその法線マップを生成します。ユーザーは画像をアップロードし、3Dモデルを選択するだけで済みます。

Jul 23, 2024

32.6k

Cohere、5億5000万ドルの資金調達で評価額55億ドルに

見逃せないニュースです。大規模言語モデルプラットフォームのCohereが、シリーズDで5億5000万ドルの資金調達を行い、評価額は55億ドルに達しました。カナダ・トロントに拠点を置くスタートアップ企業Cohereは、グーグルブレインとCortexで経験を積んだAidan Gomez、Ivan Zhang、Nick Frosstの3名によって設立されました。CEOのAidanはトロント大学で...

Jul 23, 2024

1.1k

AIニュース

AIデイリー

AIタイムライン

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

Stability AIがオープンソースのオーディオ生成モデル「Stable Audio Open」を発表：最大47秒間のステレオオーディオ生成が可能

AIbase基地

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

GrokがDeeperSearch機能をリリース、リアルタイムAIニュース検索能力を向上

アップルのAIニュース要約機能が虚偽情報拡散で物議を醸す

元Twitter幹部が開発したAIニュースアシスタントParticle：AIでニュース閲覧体験を刷新、1530万ドルの資金調達

ElevenLabsリーダーアプリがAndroidで登場、32言語対応を追加

日本のスーパー、AIで従業員の笑顔を監視 ネット上で「大げさだ」と批判の声

マイクロソフト研究所、AIフレームワークE5-Vを発表：テキストペアの単一モーダル学習でマルチモーダル学習を簡素化、コスト削減

LensGo AI、FaceSync機能を発表 あなたの声と口元をターゲット画像に移行

Luma AI、Loops機能でテキストや画像からシームレスな無限ループ動画を生成

写真一枚から30秒で3Dモデル作成！Aiuni AI：Unique 3DオープンソースプロジェクトをベースにしたAI

Cohere、5億5000万ドルの資金調達で評価額55億ドルに

日本のスーパー、AIで従業員の笑顔を監視　ネット上で「大げさだ」と批判の声

LensGo AI、FaceSync機能を発表　あなたの声と口元をターゲット画像に移行