AI製品ランキング

AI製品ランキング

グローバルAI製品の動向を検索

グローバルAI情報を検索して、AIの新しい機会を発見

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

タイプ :

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

2025-01-20 14:04:10.AIbase

MIT、DeepMind研究：否定表現を視覚言語モデルが理解できない理由

マルチモーダルタスク（画像検索、画像キャプション生成、医療診断など）において、視覚言語モデル（VLMs）は極めて重要な役割を果たしています。これらのモデルの目的は、視覚データと言語データを整合させることで、より効率的な情報処理を実現することです。しかし、現在のVLMsは否定表現の理解において依然として大きな課題に直面しています。否定表現は、「窓のない部屋」と「窓のある部屋」を区別するなど、多くの応用において極めて重要です。VLMsは著しい進歩を遂げていますが、否定的な記述を処理する際には、既存モデルの性能は依然として不十分です。

MIT、DeepMind研究：否定表現を視覚言語モデルが理解できない理由

2025-01-10 14:38:31.AIbase

商湯科技、大規模言語モデル「日日新」を発表、DeepSeek V3に匹敵

商湯科技は、新たな大規模言語モデル「日日新」を発表しました。このモデルは、マルチモーダル情報処理能力と深層推論能力において著しい向上を実現し、2つの権威ある評価ランキングで1位を獲得しました。国内の権威ある評価機関SuperCLUEが発表した『中文大模型基准测评2024年度報告』によると、「日日新」は68.3の高得点でDeepSeek V3と国内首位を分け合っています。さらに、OpenCompassのマルチモーダル評価においても高い評価を得ています。

商湯科技、大規模言語モデル「日日新」を発表、DeepSeek V3に匹敵

2024-08-19 14:44:01.AIbase

アリババ、マルチモーダル大規模言語モデルmPLUG-Owl3を発表　2時間映画を4秒で視聴可能

アリババのチームが最新発表したmPLUG-Owl3は、汎用的なマルチモーダル大規模言語モデルです。その核心能力は、長い画像シーケンスの理解にあります。超注意力モジュールを導入することで、mPLUG-Owl3は視覚情報と言語情報を効率的に処理し、画像や動画などのマルチモーダルデータに対する深い理解と対話を実現します。このモデルは、推論効率、画像処理能力、そしてマルチモーダル知識の応用において顕著な進歩を遂げ、特に動画理解分野では、2時間の映画を4秒で「視聴」し、関連する質問に正確に回答することができます。

アリババ、マルチモーダル大規模言語モデルmPLUG-Owl3を発表　2時間映画を4秒で視聴可能