香港科技大学と音楽分野のDeepSeekが共同開発したオープンソースの音楽生成モデルYuEが最近正式にリリースされ、多くの音楽ファンや音楽クリエイターに衝撃を与えました。このモデルは、様々なスタイルの音楽を生成できるだけでなく、人間の歌声を模倣することもでき、聴く者に全く新しい音楽体験を提供します。
YuEの特徴は、そのデュアルLLaMA言語モデルアーキテクチャにあります。これにより、様々な大規模言語モデルにシームレスに適合し、最長5分間の完全な曲を処理できます。この革新的な設計により、YuEは音楽生成の質において前例のない高さに達し、市場で有名なクローズドソースの音楽生成ツールSunoやUdioと肩を並べるようになりました。YuEはプロレベルの歌声と伴奏を同時に生成でき、音楽制作のエンドツーエンド生成を実現しています。
研究チームはYuEに「デュアルトラック次トークン予測」戦略を取り入れ、歌声と伴奏トラックを分けてモデル化することで、音楽制作における繊細さと一貫性を確保しました。この手法は音質を向上させるだけでなく、コンテンツ再構成プロセスにおける情報損失を大幅に削減します。「構造化漸進的生成」技術により、曲のサビとAメロなどのセクションが同じコンテキスト内で交互に生成され、曲の一貫性がさらに向上します。
剽窃を避けるため、YuEは独自の音楽コンテキスト学習技術を開発しました。これにより、モデルは既存の音楽片段から学習しながらも、繰り返しを避けて創作できます。この革新は、モデルの音楽性を高めるだけでなく、創作の独自性を強化します。最終的にYuEは複数の評価で卓越した性能を示し、ユーザーからの高い評価を獲得しました。
YuEのリリースにより、音楽制作の未来はさらに可能性に満ち溢れるものとなります。プロの音楽家であっても、アマチュアの愛好家であっても、このプラットフォームでAIがもたらす音楽制作の楽しさを体験できます。
プロジェクトアドレス:https://github.com/multimodal-art-projection/YuE