香港大学がOpenGraphをオープンソース化:グラフ基礎モデルの課題を克服し、多領域汎用グラフモデルを実現

站长之家
この記事はAIbaseデイリーからのものです
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
Metaが発表した「あらゆるものを分割する」モデルSAMは、画像セグメンテーション分野で圧倒的な力を発揮していますが、ビデオオブジェクトトラッキングになるとやや力不足です。特に、混雑した場所や、対象物が高速で移動したり、「かくれんぼ」をするようなシーンでは、SAMは混乱しがちです。これは、SAMモデルのメモリメカニズムが「固定窓」のようなもので、直近のフレームしか記録せず、記憶内容の質を無視するため、ビデオ内で誤差伝播が発生し、トラッキング効果が大幅に低下することが原因です。この問題を解決するため、ワシントン大学の...
Microsoftは最近、ゼロショットテキスト音声変換(TTS)モデルであるVALL-E 2を発表し、技術界で大きな話題となり、TTS分野の画期的な成果として注目されています。VALL-E 2の革新的な点は、ゼロショット学習能力です。わずかな未知の音声サンプルだけで、任意のテキストをその声で模倣することができ、驚くべきリアルタイム模倣とエンコーダーグループ化を実現しました。また、リピート感知サンプリングを改良し、デコーディングの安定性を向上させ、データの必要性を簡素化しました。主観評価と客観指標のテストにおいて、VALL-E 2は前世代のモデルを上回りました。
マイクロソフトは、より自然で没入感のある会話体験を提供するため、9種類のよりリアルなAI音声を発表しました。アップグレードではゼロショット学習が導入され、合成音声の自然度が向上し、特徴の模倣がより正確になりました。パーソナライズされた音声機能により、個々の音声の作成が迅速かつ簡単に可能になり、音声のリアルさが大幅に向上します。400種類以上のニューラル音声に対応し、140種類以上の言語をカバーし、高速でシームレスな変換を実現します。責任あるAIの使用を前提に、会話向けに最適化された9種類のAI音声をリリースすることで、選択肢と多様性を高めています。
GPT-4でヒューマノイドロボットを操作、事前プログラミングや訓練なしでどうなるか?答えは:驚くべき結果です!ロボットは表情を固め、恥ずかしそうに頭を振って額に手を当て、後ずさりします。表情は険しく、動作は奇妙ですが、すべてプロンプトの要求に沿っています。ヒューマノイドロボットをGPT-4で操作できること自体が、驚くべきことです。