DragNUWAは、拡散アルゴリズムに基づく動画生成モデルであり、動画生成における精密な制御の問題解決を目指しています。このモデルは、テキスト、画像、軌跡情報を取り込み、意味、空間、時間という観点から精密な制御を提供します。実験により、DragNUWAモデルは動画生成の精密制御において優れた性能を示すことが証明されました。
関連AIニュースの推奨

上海、自動車産業の革新とアップグレードを推進、高性能計算チップやインテリジェント運転大規模モデルなどの革新的技術の応用を強化

DeepMindがLyria2音楽生成モデルを発表 AI音楽制作に革命
Google DeepMindは、最新の音楽生成モデルLyria2を正式に発表し、人工知能による音楽制作分野における新たな大きな進歩を示しました。この新しいモデルは、高忠実度オーディオ生成とプロフェッショナルレベルの音質により、ミュージシャン、プロデューサー、クリエイターに、より強力な創作ツールを提供します。Lyria2:高忠実度音質、音楽の繊細な美しさを捉えるLyria2は、DeepMindによる音楽生成技術における最新の成果であり、以前のモデルと比較して、音質と創作の柔軟性において著しい向上を実現しています。

3DV-TON革新動画試着:拡散モデルによるテクスチャ3D整合性で新たな体験
拡散モデルを用いたテクスチャ3D誘導による動画試着を実現する革新技術「3DV-TON(Textured3D-Guided Consistent Video Try-on via Diffusion Models)」が正式に発表されました。AIbaseの情報によると、3DV-TONは高度な3D幾何学とテクスチャモデリングを動画拡散モデルと組み合わせることで、動画における衣服の一貫性と現実感を確保し、eコマース、ファッション、仮想現実分野に新たな可能性をもたらします。

餓了麼AIアシスタント「小餓」登場:呼びかけるだけで受注などの操作が可能に
餓了麼は、国内初のAI大規模言語モデル技術に基づく配達員向けインテリジェントアシスタント「小餓」の正式提供を発表しました。AI技術によって配達員の業務環境を再構築し、業務効率と安全性の向上を両立します。この機能は、無錫、瀋陽、佛山、蘇州の4都市で先行して開始され、蜂鳥衆包アプリを利用する配達員を対象としています。

飛書と生数科技が連携、Viduを飛書的多次元表に統合
先日、飛書と生数科技は戦略的パートナーシップを締結し、国産ビデオ大規模言語モデルであるViduを飛書的多次元表機能に正式に統合しました。これにより、飛書ユーザーは、多次元表内のAIフィールドショートカットを通じて、Viduビデオ大規模言語モデルを簡単に呼び出し、作業効率の向上とデータ処理能力の強化を実現できます。生数科技のViduは、強力な機能を備えたビデオ大規模言語モデルであり、効率的なビデオ生成と処理を実現します。今回の連携は、飛書ユーザーがAI技術をより便利に活用し、視覚的な…

豆包1.5・深層思考モデル、エッジ大規模言語モデルゲートウェイに正式上线 無料で100万トークンゲット可能
バイトダンス傘下の火山エンジンは、最新リリースの豆包1.5・深層思考モデルがエッジ大規模言語モデルゲートウェイに全面的に上线されたことを発表し、ユーザーに最大500万トークンの無料利用枠を提供しています。この取り組みはAI業界で大きな注目を集めています。

百度、文心大模型4.5 TurboとX1 Turboを発表:価格改定と高速化で大幅進化
4月25日に開催された百度Create開発者会議で、百度創設者である李彦宏氏が最新の文心大模型シリーズである文心4.5 TurboとX1 Turboを発表しました。これらの新型モデルは速度とコストの面で大幅な最適化が図られており、百度の人工知能分野における更なる進歩を示しています。文心4.5Turboは以前のバージョンと比較して速度が大幅に向上し、処理効率が高まり、価格はなんと80%も削減されました。具体的には、100万トークンあたり…

Meta、WebSSLモデルを発表:言語不要のビジョン学習における新たな探求
人工知能の分野において、Meta社は最近、WebSSLシリーズモデルを発表しました。このシリーズモデルは、パラメータ規模が3億から70億と異なり、純粋な画像データに基づいてトレーニングされ、言語なしの監督によるビジョン自己教師あり学習(SSL)の可能性を探求することを目的としています。この新たな研究は、将来のマルチモーダルタスクに新たな可能性をもたらし、ビジョン表現の学習方法の理解についても新たな視点を与えてくれます。これまで、OpenAIのCLIPモデルは、ビジュアル質問応答(VQA)や文書理解などのマルチモーダルタスクにおける優れた性能で知られていました。

30.5Kスター!このAIツール設計の宝庫、開発者たちが熱狂する理由とは?
GitHub上で「system-prompts-and-models-of-ai-tools」というオープンソースプロジェクトが大きな注目を集め、30.5Kスターを獲得し、AI開発者や研究者にとって貴重なリソースとなっています。AIbaseの調査によると、このプロジェクトは9つの主要なAIツールのシステムプロンプトとモデル設定を網羅しており、6500行以上の内容を含み、v0、Cursor、Manus、Same.dev、Lovable、Devin、Repなどをカバーしています。

Tavus、最先端リップシンクモデルHummingbird-0を発表:ゼロショットリップシンク技術に革命
AIビデオ研究企業Tavusは、最新のゼロショットリップシンクモデルHummingbird-0を発表しました。これは、現在最先端(State-of-the-Art、SOTA)のリップシンク技術として評価されています。このモデルは、Tavusプラットフォーム、API、およびFALで研究プレビューとして公開されており、AIコンテンツ制作分野で大きな注目を集めています。ゼロショットリップシンクにおける画期的な進歩Hummingbird-0は、Tavusの主力モデルPhoenix-をベースに開発されました。