今年の春節から、ネット上で「鉄山靠」をする猫ちゃんの動画が流行し始めました。その裏側にある技術は、アリババの通義实验室が発表したAIアニメーションプロジェクト「AnimateAnyone」です。静止画一枚と骨格アニメーションだけで、人物アニメーション動画を生成できるのです。このAIプロジェクトは、他のものと何が違うのでしょうか?
AIアニメーションプロジェクトAnimaAnyoneで、あなたの猫をダンスさせよう!

今年の春節から、ネット上で「鉄山靠」をする猫ちゃんの動画が流行し始めました。その裏側にある技術は、アリババの通義实验室が発表したAIアニメーションプロジェクト「AnimateAnyone」です。静止画一枚と骨格アニメーションだけで、人物アニメーション動画を生成できるのです。このAIプロジェクトは、他のものと何が違うのでしょうか?
アリババグループの通義实验室が開発した、ビジュアルドキュメントを対象としたRAG(Retrieval Augmented Generation)システムViDoRAGがオープンソース化されました。評価実験の結果、79.4%の高い精度を達成したことが報告されています。
先日、通義实验室は革新的な音楽生成技術InspireMusicを正式にオープンソース化しました。この技術は、音楽、楽曲、オーディオ生成機能を統合したオープンソースAIGCツールキットを目指しており、研究者、開発者、音楽愛好家に包括的な創作プラットフォームを提供します。InspireMusicは研究者や開発者に対し、豊富な音楽/楽曲/オーディオ生成モデルのトレーニングと調整ツールを提供するだけでなく、生成効果を最適化するための高効率なモデルも備えています。また、このツールキットは…
アリババの通義实验室音声チームは、オープンソースの音声生成大規模モデルCosyVoiceがバージョン2.0にアップグレードされたことを発表しました。このアップグレードは、音声生成技術の正確性、安定性、自然な体験において顕著な進歩を示しています。CosyVoice 2.0は、オフラインとストリーミングを統合したモデリングによる音声生成大規模モデル技術を採用することで、双方向ストリーミング音声合成を実現し、最初の音声合成遅延を150msに短縮、音声合成の応答速度を大幅に向上させました。
アリババ傘下の達摩院(ダモアカデミー)通義实验室は、音声の品質と聞き取りやすさを向上させることを目的とした音声処理技術「ClearerVoice-Studio」を近日オープンソースとして公開しました。音声技術の広範な応用に伴い、音声品質に対する関心が高まっています。特に、環境ノイズ、残響、デバイスの音声拾い上げなどにおいて、音声処理技術の需要はますます高まっています。