テンセント、初のオープンソース多様な大規模言語モデルVITAを発表ユーザーとのシームレスなコミュニケーションを実現

AIbase基地

公開日AIニュース · 1 分で読めます · Aug 14, 2024

559

最近、テンセント優図研究所などの研究者らが、初のオープンソースのマルチモーダル大規模言語モデルVITAを発表しました。これは、ビデオ、画像、テキスト、オーディオを同時に処理でき、さらに、そのインタラクション体験も一流です。

VITAモデルの誕生は、大規模言語モデルにおける中国語方言処理の不足を補うためです。強力なMixtral8×7Bモデルをベースに、中国語の語彙を拡張し、バイリンガル指示微調整を行い、VITAは英語だけでなく、中国語も流暢に使えるようになりました。

主な特徴:

マルチモーダル理解:VITAは、ビデオ、画像、テキスト、オーディオを処理できます。これはオープンソースモデルとしては前例のないことです。

自然なインタラクション:「ねえ、VITA」と毎回言う必要はありません。話しかけるとすぐに反応し、他人と会話中でも、礼儀正しく、無闇に割り込みません。

オープンソースの先駆け:VITAは、オープンソースコミュニティがマルチモーダル理解とインタラクションにおいて踏み出した重要な一歩であり、今後の研究の基礎を築きます。

VITAの魔法は、その二重モデルの展開にあります。一つのモデルはユーザーの問い合わせへの応答を生成し、もう一つのモデルは環境入力の継続的な追跡を行い、毎回のインタラクションが正確かつ迅速に行われるようにします。

VITAはチャットだけでなく、フィットネス中の会話相手にもなり、旅行の際のアドバイスも提供できます。提供された画像やビデオの内容に基づいて質問に答えることもでき、強力な実用性を示しています。

VITAはすでに大きな可能性を示していますが、感情音声合成やマルチモーダルサポートなどの面では、絶えず進化を続けています。研究者らは、次世代のVITAがビデオとテキスト入力から高品質のオーディオを生成し、さらには高品質のオーディオとビデオを同時に生成する可能性を探求することを計画しています。

VITAモデルのオープンソース化は、技術の勝利であるだけでなく、インテリジェントなインタラクション方法に対する深い革新でもあります。研究が進むにつれて、VITAがよりインテリジェントで、より人間的なインタラクション体験をもたらすと確信しています。

論文アドレス：https://arxiv.org/pdf/2408.05211

DeepSeek、深夜に新たな多様な大規模言語モデルJanus-Proを発表

中国の大規模言語モデル開発企業DeepSeekが、新たな多様な大規模言語モデルJanus-Proを発表し、正式にテキストから画像生成の分野に進出しました。これはDeepSeekのマルチモーダルAI技術における大きな飛躍を示しています。GenEvalとDPG-Benchのベンチマークテストにおいて、Janus-Pro-7BはOpenAIのDALL-E3を凌駕するだけでなく、Stable Diffusion、Emu3-Genなどの主要なモデルをも上回りました。Janus-ProはMITライセンスを採用しています。

GPT-4oレベル！VITA-1.5：リアルタイムなビジュアルと音声インタラクション、1.5秒のインタラクション遅延

VITA-MLLMチームは最近、VITA-1.0をベースに開発されたアップグレード版であるVITA-1.5を発表しました。マルチモーダルインタラクションのリアルタイム性と正確性の向上を目指しています。VITA-1.5は英語と中国語に対応しているだけでなく、複数の性能指標において顕著な向上を実現し、よりスムーズなインタラクション体験を提供します。VITA-1.5では、インタラクション遅延が大幅に短縮され、従来の4秒からわずか1.5秒に短縮されました。ユーザーは音声インタラクションを行う際に、ほとんど遅延を感じません。

バイトダンス、AIモデルコミュニティプラットフォーム「炉米Lumi」を発表：CivitaiやLiblibに類似

10月31日、バイトダンスはAIモデル共有コミュニティプラットフォーム「炉米Lumi」をひっそりとローンチしました。このプラットフォームは、モデルのアップロードと共有、ワークフロー構築、LoRAトレーニングなどの機能を提供する予定です。現在、クローズドベータテスト段階にあり、ホワイトリストユーザーのみに公開されています。

Civitaiが「グリーン」な新サイトCivitai Greenをローンチ！モデルダウンロードがよりスムーズに

Civitai Greenサイトのローンチは、プラットフォームが純粋でプロフェッショナルなAIアート創作環境への転換を示しています。アダルトコンテンツを完全に排除し、クリエイターに安全で適切な画像とモデルリソースを提供することで、職場でのユーザーエクスペリエンスを向上させました。Civitai Greenを通じて、プラットフォームはリソースの高品質と多様性を確保するだけでなく、より効率的な決済プロセッサーPaddleを導入し、ユーザーの決済体験を最適化しました。この変革は、プラットフォームの商業化促進だけでなく、作品共有を通じてコミュニティエコシステムの強化にも貢献します。

AIニュース

テンセント、初のオープンソース多様な大規模言語モデルVITAを発表 ユーザーとのシームレスなコミュニケーションを実現