SALMONNフレームワーク：大規模言語モデルの汎用聴覚能力拡張

站长之家

公開日AIニュース · 1 分で読めます · Nov 29, 2023

108

SALMONNは、オーディオテキスト多様な大規模言語モデルフレームワークであり、大規模言語モデルの汎用聴覚領域における理解と処理能力の拡張を目指しています。非音声BEATsオーディオエンコーダ、OpenAI Whisperフレームワークの音声エンコーダ、ウィンドウレベルQ-Formerなどのコンポーネントを統合し、高い時間分解能を実現することで、オーディオテキストのアライメントを可能にします。活性化調整段階を経て、SALMONNはオーディオ字幕、音声翻訳などのタスクで競争力のある性能を示し、汎用聴覚能力を実証しています。

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

先日、魔楽コミュニティ（Modelers）で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。

AIニュース

SALMONNフレームワーク：大規模言語モデルの汎用聴覚能力拡張

站长之家

関連AIニュースの推奨

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

FirecrawlがLLM.txt APIをリリース：URLを入力するだけで、任意のウェブサイトのLLM.txtを生成

トレーニング不要！Q-FiltersによるKVキャッシュの高効率圧縮と推論性能向上

智源がBGE-VLマルチモーダルベクトルモデルを発表、検索の新時代を開幕