Qwen2-Audio：阿里雲の千問シリーズ音声マルチモーダルモデル　テキスト不要の音声インタラクション

AIbase

公開日AIニュース · 1 分で読めます · Jul 17, 2024

973

阿里巴巴クラウドは、大規模音声言語モデル「Qwen-Audio」を新たに発表しました。このモデルは様々な音声信号を入力として受け入れ、音声分析を実行したり、音声指示に直接応答したりすることで、音声インタラクション体験を大幅に向上させます。

製品入口:https://top.aibase.com/tool/qwen2-audio

今回の発表で、Qwen-Audioは音声チャットと音声分析という2つのユニークな音声インタラクションモードを提供します。ユーザーはテキストを入力することなくQwen-Audioと音声でやり取りでき、インタラクション中に音声とテキストの指示を提供して分析を行うことで、より便利な体験を提供します。

Qwen-Audioは音声の内容をスマートに理解し、音声指示に従って適切な応答を行います。例えば、音声、複数話者の会話、音声指示が同時に含まれる音声セグメントにおいて、Qwen-Audioは指示を直接理解し、音声の解釈と応答を提供できます。

さらに、DPOは事実性と期待される行動への遵守に関するモデルの性能を最適化しました。AIR-Benchによる評価結果によると、Qwen-Audioは、音声中心の指示追跡機能に焦点を当てたテストにおいて、Gemini-1.5-proなどの従来の最先端技術(SOTA)を上回りました。Qwen-Audioはオープンソースであり、マルチモーダル言語コミュニティの発展を促進することを目的としています。

なお、Qwen-AudioシリーズはQwen2-AudioとQwen-Audio-Chatの2つのモデルを発売し、ユーザーにより豊かな音声インタラクション体験を提供します。

研究者らは、Qwen-Audioモデルを包括的に評価し、タスク固有の微調整を行うことなく、様々なタスクにおける性能を評価します。英語自動音声認識（ASR）の結果では、Qwen-Audioは以前の多タスク学習モデルと比較して高い性能を示しました。

Qwen-Audioのチャット能力に関しては、研究者らはAIR-Benchのチャットベンチマーク（Yang et al.、2024）で性能を測定しました。Qwen-Audioは、音声、音、音楽、および混合音声サブセット全体で最先端の（SOTA）指示追跡機能を示しました。Qwen-Audioと比較して、大幅な改善を示しており、他のLALMを大幅に上回っています。

要点:
🌟 阿里巴巴クラウドが革新的な大規模音声言語モデルQwen2-Audioを発表、音声インタラクション体験を向上;
Qwen2-Audioは様々な音声信号を入力として受け入れ、音声分析を実行したり、音声指示に直接応答したりすることで、音声インタラクション機能を大幅に拡張;
🌟 3段階のトレーニングプロセスにより、Qwen2-Audioのモデル構造、トレーニング方法、性能が包括的に示され、ユーザーにより質の高い音声インタラクション体験を提供。

アップルのAIニュース要約機能が虚偽情報拡散で物議を醸す

アップル社が最近発表したAIニュース要約機能が、速報ニュースの要約において重大な誤りを繰り返し、ユーザーに大量の虚偽情報が伝わる事態を引き起こしている。この機能の発表以来、多くの報道機関やユーザーから、アップルの技術が未成熟であり、正確な情報を効果的に提供できないとして強い反発を受けている。ワシントンポスト紙のテクノロジーコラムニスト、ジェフリー・ファウラー氏がソーシャルメディアで、アップルのAIがニュース要約において事実を歪めたと投稿したと報じられている。

元Twitter幹部が開発したAIニュースアシスタントParticle：AIでニュース閲覧体験を刷新、1530万ドルの資金調達

現在のメディア業界がAIに対して慎重な姿勢をとる中、ParticleというAIニュース閲覧アプリがその状況を変えようとしています。元Twitterのエンジニアが開発したこのアプリは、ユーザーがニュースをより深く理解するのを支援するとともに、従来のメディア機関とのウィンウィン関係を模索しています。Particleは、元Twitterプロダクトマネジメント上級ディレクターのSara Beykpour氏と、元Twitterおよびテスラの上級エンジニアであるMarcel Molina氏によって共同設立されました。同社は、

日本のスーパー、AIで従業員の笑顔を監視　ネット上で「大げさだ」と批判の声

日本のイオン系のスーパーマーケットが、AIシステム「Smile-Kun」を使って従業員の笑顔を監視していることが明らかになった。従業員の笑顔や声の分析を通じて接客スキル向上を目指しているという。システムは特定のあいさつ方法を要求し、450個の微表情のポイントで100点満点で採点、リアルタイムでフィードバックする。さらに、音量や滑らかさ、トーンについても分析し、改善点を提案する。従業員の反応では笑顔の割合が大幅に増加したという。しかし、この取り組みは物議を醸しており、一部のネットユーザーからは従業員の個性や感情を過度に数値化しており、真心のこもったサービスとは程遠いとの批判が出ている。批判意見では、上下関係や

マイクロソフト研究所、AIフレームワークE5-Vを発表：テキストペアの単一モーダル学習でマルチモーダル学習を簡素化、コスト削減

マイクロソフト研究所と北京航空航天大学の研究チームは、マルチモーダル大規模言語モデル（MLM）開発における課題解決を目指し、高効率なマルチモーダル埋め込みフレームワークE5-Vを発表しました。この革新的なフレームワークは、単一モーダル学習によってマルチモーダル学習プロセスを簡素化し、従来のモデルに見られた独立したエンコーダーへの依存と、それに伴う入力統合の非効率性を克服します。E5-Vはテキストと画像情報を統合することでトレーニングコストを削減し、テキスト-画像検索、画像検索など、複数の複雑なタスクにおいて優れた性能を示しました。特にゼロショット学習において…

AIニュース

Qwen2-Audio：阿里雲の千問シリーズ音声マルチモーダルモデル テキスト不要の音声インタラクション