MeshGPT:Transformerが3Dモデリングに革命を起こす、ネットユーザーは画期的アイデアと称賛

站长之家
この記事はAIbaseデイリーからのものです
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
近頃、『One-Minute Video Generation with Test-Time Training』(テスト時訓練による1分間の動画生成)という題名の新しい研究論文が発表され、人工知能による動画生成技術が新たな段階に突入したことを示しています。この研究では、事前学習済みのTransformerモデルに革新的なテスト時訓練(TTT)層を導入することで、『トムとジェリー』(Tom and Jerry)の1分間のアニメーションを生成することに成功しました。
人工知能による絵画の分野では、拡散モデル(Diffusion Model)がU-NetアーキテクチャベースからTransformerアーキテクチャ(DiT)ベースへと移行しつつあります。しかし、DiTエコシステムは、プラグインサポート、効率性、多条件制御などの点で課題に直面しています。最近、Xiaojiu-z氏率いるチームがEasyControlという革新的なフレームワークを発表しました。これは、DiTモデルに効率的で柔軟な条件制御能力を提供することを目的としており、まるでDiTモデルに強力なCを装備したようなものです。
テンセントは先日、混元大規模言語モデルシリーズの正式版である「混元-T1」を発表しました。この新しいモデルは、中規模の混元基盤モデルをベースに大規模な事後学習が行われ、推論能力が大幅に向上しています。特に、深い思考や複雑な問題解決において優れたパフォーマンスを発揮します。2月に混元T1-Previewが公開されて以来、ユーザーはより高速で深い思考プロセスを体験しており、今回の正式版のリリースは、このシリーズ製品の更なる進化を示しています。混元-T1の開発チームは最新のTurbo...
ムーアセラードが、MT-MegatronLMとMT-TransformerEngineという2つの強力なAIフレームワークをオープンソース化しました。これにより、国産GPUを用いたAIトレーニングの効率が90%以上にまで向上しました。
深層学習の分野において、正規化層は現代的なニューラルネットワークにおいて不可欠な構成要素の一つとみなされています。最近、Meta FAIRの研究科学者である劉壮氏が主導した研究成果「正規化層のないTransformer」が大きな注目を集めています。この研究は、動的tanh(Dynamic Tanh、DyT)と呼ばれる新技術を提案しただけでなく、従来の正規化層を使用せずにTransformerアーキテクチャが依然として効率的に動作することを示しました。
3月13日、Sesame社は最新のテキスト音声変換モデルCSMを発表し、業界の注目を集めています。公式発表によると、CSMはエンドツーエンドのTransformerベースのマルチモーダル学習アーキテクチャを採用し、コンテキスト情報を理解して、自然で感情豊かな音声、まるで人間の声のような驚くほどリアルな音声を生成します。このモデルはリアルタイム音声生成に対応し、テキストと音声の両方の入力を処理できます。ユーザーはパラメーターを調整することで、トーン、イントネーション、リズム、感情などの特性を制御でき、高い柔軟性を発揮します。CSMはAI音声技術の...
大規模言語モデルによる長文処理の遅さに頭を悩ませていますか?清華大学が画期的な技術、APBシーケンシャル並列推論フレームワークを発表しました!この技術は、大規模言語モデルにターボエンジンを搭載したようなものです!実測によると、超長文処理において、Flash Attentionと比較してなんと10倍もの高速化を実現しました!ChatGPTなど大規模言語モデルの普及により、AIの読解能力は飛躍的に向上し、数十万文字の長文処理も容易になっています。しかし、その処理速度は課題でした。