MiniMaxは先日、初の動画生成大規模言語モデルをひっそりと発表し、同モデルで生成された2分間の動画「魔法硬貨」を同時に公開しました。同社はまだモデルの具体的なパラメータや技術的な詳細を公表していませんが、創設者の閻俊杰氏はメディアの合同インタビューで、その動画生成効果はRunwayを上回ると述べています。
閻俊杰氏は、現在公開されているのは第一版のモデルであり、今後、データ、アルゴリズム、使用方法などの点で継続的に改良していくと明かしました。既存のテキストから動画を生成する機能に加え、今後、画像から動画を生成する機能や、テキストと画像を組み合わせて動画を生成する機能も追加する予定です。商業化計画については、新バージョンが満足のいく状態になった後に検討すると述べています。
快手可灵と比較すると、MiniMaxの動画生成モデルの発表は1~2ヶ月遅れています。閻俊杰氏は、これはチームがより困難な技術的問題、特に計算能力の高いコンテンツのトレーニング方法を解決することに取り組んでいたためだと説明しています。彼は、MiniMaxの中核となる研究開発の考え方は、わずかな改善ではなく、顕著な性能向上を目指すことだと強調しました。
画像出典:画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。
閻俊杰氏は、動画生成機能を開発した主な動機は、ユーザーのカバー率と使用率を高めるためだと考えています。彼は、人間が日常的に消費するコンテンツは、テキストと画像、そして動画が中心であるため、マルチモーダルコンテンツの生成は必然的な発展方向であると指摘しています。
しかし、動画生成大規模言語モデルは多くの課題に直面しています。閻俊杰氏は、動画生成の複雑さはテキストの生成よりもはるかに高く、長いコンテキストの処理、膨大なストレージ容量の必要性、インフラストラクチャのアップグレードなどの問題があると説明しています。
MiniMaxのオープンソースプラットフォーム責任者である魏偉業氏は、現在の大規模言語モデルが直面する主な課題として、避けられない幻覚、高額な使用コスト、マルチモーダルアプリケーションの開発などを挙げています。彼は、APIコストがさらに低下すれば、より多くのアプリケーションシナリオが生まれるだろうと考えています。
BtoBかBtoCか、国内市場か海外市場かなど、業界内の多くの論争に直面して、閻俊杰氏は、MiniMaxは技術の進歩、ユーザー、製品のイテレーション効率に対して楽観的な姿勢を保っていると述べています。