オープンソースのローカルリアルタイムマルチモーダルモデルMoshi：リアルタイム音声生成、複数アクセントに対応

AIbase

公開日AIニュース · 1 分で読めます · Jul 4, 2024

417

フランスの非営利AI研究ラボKyutaiが、革新的なリアルタイムネイティブマルチモーダル基盤モデルである音声アシスタント「Moshi」を発表しました。この画期的なモデルは、5月にOpenAIが発表したGPT-4oが示したいくつかの機能を模倣し、一部の機能ではそれを凌駕しています。

製品入口：https://top.aibase.com/tool/moshi-chat

Moshiは感情を理解し表現することを目指しており、フランス語を含む様々なアクセントで会話する能力を備えています。音声と音声を同時に聞き、生成し、テキスト思考をスムーズに伝えることができます。Moshiは人間らしい感情を複数持ち、70種類の感情とスタイルで話すことができるということです。

Moshiの大きな特徴の一つは、2つのオーディオストリームを同時に処理できることで、同時に聞き話すことができます。このリアルタイムインタラクションは、混合テキストとオーディオの共同事前学習に基づいて実現されており、Kyutaiが開発した70億パラメーターの言語モデルHeliumの合成テキストデータを利用しています。

Moshiの微調整プロセスには、10万件の「口語スタイル」の合成対話をテキスト読み上げ（TTS）技術で変換することが含まれていました。このモデルの音声は、別のTTSモデルによって生成された合成データでトレーニングされており、驚くべき200ミリ秒のエンドツーエンドの遅延を実現しています。

注目すべきは、KyutaiはMacBookや消費者向けGPUでも動作するMoshiの小型版も開発しており、より幅広いユーザーが利用できるようになっています。

要点: 🔍 Kyutaiは、リアルタイムネイティブマルチモーダル基盤AIモデルであるMoshiを発表しました。
🔍 Moshiは感情を理解し表現する機能を備えており、複数のアクセントに対応しています。
🔍 このモデルは厳格な微調整とトレーニングを経ており、高い性能と多様な応用可能性を示しています。

アップルのAIニュース要約機能が虚偽情報拡散で物議を醸す

アップル社が最近発表したAIニュース要約機能が、速報ニュースの要約において重大な誤りを繰り返し、ユーザーに大量の虚偽情報が伝わる事態を引き起こしている。この機能の発表以来、多くの報道機関やユーザーから、アップルの技術が未成熟であり、正確な情報を効果的に提供できないとして強い反発を受けている。ワシントンポスト紙のテクノロジーコラムニスト、ジェフリー・ファウラー氏がソーシャルメディアで、アップルのAIがニュース要約において事実を歪めたと投稿したと報じられている。

元Twitter幹部が開発したAIニュースアシスタントParticle：AIでニュース閲覧体験を刷新、1530万ドルの資金調達

現在のメディア業界がAIに対して慎重な姿勢をとる中、ParticleというAIニュース閲覧アプリがその状況を変えようとしています。元Twitterのエンジニアが開発したこのアプリは、ユーザーがニュースをより深く理解するのを支援するとともに、従来のメディア機関とのウィンウィン関係を模索しています。Particleは、元Twitterプロダクトマネジメント上級ディレクターのSara Beykpour氏と、元Twitterおよびテスラの上級エンジニアであるMarcel Molina氏によって共同設立されました。同社は、

日本のスーパー、AIで従業員の笑顔を監視　ネット上で「大げさだ」と批判の声

日本のイオン系のスーパーマーケットが、AIシステム「Smile-Kun」を使って従業員の笑顔を監視していることが明らかになった。従業員の笑顔や声の分析を通じて接客スキル向上を目指しているという。システムは特定のあいさつ方法を要求し、450個の微表情のポイントで100点満点で採点、リアルタイムでフィードバックする。さらに、音量や滑らかさ、トーンについても分析し、改善点を提案する。従業員の反応では笑顔の割合が大幅に増加したという。しかし、この取り組みは物議を醸しており、一部のネットユーザーからは従業員の個性や感情を過度に数値化しており、真心のこもったサービスとは程遠いとの批判が出ている。批判意見では、上下関係や

マイクロソフト研究所、AIフレームワークE5-Vを発表：テキストペアの単一モーダル学習でマルチモーダル学習を簡素化、コスト削減

マイクロソフト研究所と北京航空航天大学の研究チームは、マルチモーダル大規模言語モデル（MLM）開発における課題解決を目指し、高効率なマルチモーダル埋め込みフレームワークE5-Vを発表しました。この革新的なフレームワークは、単一モーダル学習によってマルチモーダル学習プロセスを簡素化し、従来のモデルに見られた独立したエンコーダーへの依存と、それに伴う入力統合の非効率性を克服します。E5-Vはテキストと画像情報を統合することでトレーニングコストを削減し、テキスト-画像検索、画像検索など、複数の複雑なタスクにおいて優れた性能を示しました。特にゼロショット学習において…

AIニュース