フランスのオープンソースAI研究ラボKyutaiが、全く新しいマルチモーダル大規模言語モデル「Moshi」を発表しました。これは単なる技術的ブレークスルーではなく、既存のAI技術への大胆な挑戦でもあります。
7月4日未明、Kyutaiは公式ウェブサイトでMoshiの登場を発表しました。このモデルの機能は、5月にOpenAIが公開したGPT-4oと同等で、音声による質問を聞き取り、リアルタイムで推論して回答することができます。しかし、GPT-4oの音声モードは秋まで全面公開されないのに対し、Moshiは既に誰でも利用可能です。
主な特徴:
マルチモーダル能力:Moshiは音声による質問を聞き取り、リアルタイムで推論して回答できます。音声モードは既に公開されており、GPT-4oの秋公開よりもはるかに早いです。
地域制限なし:どこにいてもMoshiを使用できます。
モバイル対応:中国語のサポートはあまり良くありませんが、英語での質問は全く問題ありません。
近日オープンソース化:KyutaiはMoshiを近日中にオープンソース化する予定で、コード、モデルウェイト、論文を公開する予定です。
体験アドレス:https://top.aibase.com/tool/moshi-chat
Moshiの発表は、AI技術への大胆な試みと言えるでしょう。聞き話す能力だけでなく、将来的には見る能力も備える可能性があります。これにより、AIの未来への期待が高まります。また、Moshiの使用方法は非常に簡単で、公式ウェブサイトにログインしてメールアドレスを入力し、「参加」をクリックするだけで、Moshiとの会話を始めることができます。
公式デモビデオ
特筆すべきは、Moshiの中国語サポートはまだ改善の余地があることで、英語で質問した方がより良い体験を得られます。さらに、Moshiは地域制限がなく、どこにいても直接使用できるため、世界中のAI愛好家に大きな利便性をもたらします。
公式デモ
Kyutaiラボのこの取り組みは、オープンソース精神への彼らのこだわりを示しています。彼らはMoshiを近日中にオープンソース化し、コード、モデルウェイト、論文を公開して、世界中の開発者や研究者がMoshiの開発と最適化に参加できるようにする予定です。
使用感
応答速度が速い:中国本土の回線でも、Moshiはほぼ遅延なく質問に応答します。
言語サポート:現在、Moshiは主に英語とフランス語をサポートしており、中国語(標準語)のサポートは改善が必要です。
使いやすさ:登録プロセスは簡単で、メールアドレスを送信するだけです。
能力:Moshiは聞き話す能力を示しており、将来的には見る能力も追加される可能性があります。Moshiの人間的な話し方は大きな特徴であり、機械的な感じが少なく、より自然でスムーズな会話体験を提供します。
もちろん、現在のMoshiの回答内容は比較的限られており、大まかな概要しか提供できません。しかし、製品の継続的な反復と最適化により、Moshiの回答はより詳細で正確なものになると確信しています。
さらに、Moshiの発表は教育業界にも大きな影響を与えるでしょう。例えば、AIは生徒に繰り返し説明を提供でき、教育に大きな助けとなります。将来的には、より多くの同様の製品が登場し、より多くの地域言語をサポートし、AI技術が人々の生活により密着することを期待しています。