2024年の世界人工知能大会で、商湯科技は国内初のWYSIWYGモデル「日日新5o」を発表しました。このモデルはGPT-4oと同等のインタラクティブな体験を提供し、リアルタイムのストリーミングマルチモーダルインタラクションを実現しています。音声、テキスト、画像、ビデオなどのクロスモーダル情報を統合することで、リアルタイムでの理解と応答が可能です。例えば、スタッフの胸につけている名札を認識して会場の位置を判断したり、ぬいぐるみ犬の外見や服装を説明したり、スタッフが描いた絵を即座に評価したりできます。
「日日新5o」モデルのリアルタイムインタラクション能力は、リアルタイムの会話や音声認識などのアプリケーションに特に適しています。このモデルは、単一のモデル内で複数のタスクを処理でき、異なるコンテキストに応じて動作と出力を適応的に調整します。このモデルは「日日新5.5」基本モデルに基づいており、「日日新5.5」は今年4月に発表された「日日新5.0」のアップグレード版で、総合性能が平均30%向上し、特に数学的推論、英語能力、指示への追従などで顕著な改善が見られます。
「日日新5.5」は、混合型エンドクラウド協調専門家アーキテクチャを採用し、10TBを超えるトークンの高品質なトレーニングデータ(合成された思考連鎖データを含む)を使用して、モデルの推論思考能力を向上させています。企業ユーザーの参入障壁を下げるため、商湯は「大モデル0元Go」プランを発表し、新規登録ユーザーに複数の無料サービスを提供し、5000万トークンパッケージを贈呈しています。また、OpenAIユーザーの移行を支援する専任のコンサルタントも提供し、サービスコストをゼロに抑えています。