先日開催された百度AI DAYにおいて、百度文小言のブランド刷新と機能アップグレードが正式発表されました。今回のアップグレードは、新しいビジュアルイメージだけでなく、多モデル融合スケジューリング技術の導入が大きなポイントです。これにより、音声認識と画像問答能力が大幅に向上します。
文小言の多モデル融合スケジューリングは、今回のアップグレードの核心的な魅力です。百度が独自開発した文心X1、文心4.5などのモデルを統合し、DeepSeek-R1や可灵などの優れたサードパーティ製モデルも導入することで、ユーザーはニーズに合わせて最適なモデルを柔軟に選択できます。「自動モード」をクリックするだけで、システムが最適なモデルの組み合わせを自動的に選択し、応答速度とタスク処理能力を大幅に向上させ、まさにワンクリックで問題解決を実現する理想的な体験を提供します。
音声機能においては、アップグレードされた音声大規模モデルは、様々な方言に対応した会話、複雑な知識への質問応答、さらには会話の途中の割り込みにも対応しています。つまり、ユーザーは音声を通じて知識の回答を得るだけでなく、楽しいロールプレイングもでき、より豊かなインタラクティブな体験が可能になります。百度の音声担当主席アーキテクトである賈磊氏は、このモデルは業界初の、新しいクロスアテンション(Cross-Attention)技術に基づいたエンドツーエンドの音声言語大規模モデルであり、業界平均と比較して呼び出しコストを50%~90%削減したと指摘しています。同時に、このモデルの推論応答速度は非常に速く、待ち時間は約1秒に短縮され、ユーザーのインタラクティブな体験がよりスムーズになります。
さらに、文小言は革新的な画像問答機能も導入しました。ユーザーは写真撮影または画像アップロードを通じて、テキストまたは音声で質問し、詳細な解析を得ることができます。例えば、数学の問題を撮影すれば、リアルタイムで解法と動画解説を得ることができ、商品画像をアップロードすれば、パラメータや価格の比較を行い、購買決定を容易にすることができます。新しく追加された「図個冷知識」機能はさらに興味深く、ユーザーは「歴史学者」や「テクノロジー通」などの視点を選択し、多角的に同じ画像を解釈することで、インタラクションの楽しさを高めます。
百度文小言の今回のアップグレードは、ユーザーによりスマートで便利な体験をもたらしました。そして、未来のインタラクションはさらに多様化していくでしょう。