xAI、Grokに画像理解機能を追加　ミームのユーモアも理解

AIbase基地

公開日AIニュース · 1 分で読めます · Oct 29, 2024

198

マスク氏率いるxAI社は、同社のAIモデルGrokに画像認識機能を追加しました。Xプラットフォームの有料ユーザーは、AIアシスタントに画像をアップロードして質問できるようになりました。このアップデートは、xAIの従業員とGrokの公式スポークスパーソンによってXプラットフォーム上で正式に確認されています。

マスク氏はプラットフォーム上でGrokの新しい能力を披露し、画像の内容を理解するだけでなく、画像に含まれるユーモアの要素も解釈できると述べました。しかし、彼は現在この機能はまだ初期段階であり、チームは継続的に改善していくと述べています。

注目すべきは、今年8月に上級ユーザー向けにGrok-2モデルがリリースされて以来、xAIは積極的に機能範囲を拡大していることです。Black Forest LabsのFLUX.1モデルとの連携により、Grokは画像生成能力も備えています。今回のマルチモーダル理解機能の追加は、Xプラットフォームのユーザーエクスペリエンスと開発者向けAPIの更なる改善となります。

ユーザーからの文書処理に関する要望について、マスク氏は、この機能もすぐに実現すると述べています。彼はxAIチームの開発効率の高さを強調し、「数ヶ月で他社が数年かけて行う作業を完了した」と述べています。

Xプラットフォームのユーザーエンゲージメント向上策の一つとして、今月初めには「レーダー」と呼ばれる新しいツールも導入され、Premium+ユーザーにリアルタイムのトレンド監視と会話分析サービスを提供しています。これらの機能強化は、XプラットフォームがAI技術を通じて製品競争力を継続的に強化していることを示しています。

AIの火眼金睛！Finer-CAMでAIによる画像理解をより正確に、分類をより明確に

人工知能は画像認識分野で非常に盛んです。猫や犬の分類などはもう時代遅れで、今では「連想ゲームPlus版」のような、例えばある特定の年式の特定のモデルのスポーツカーであること、あるいはある鳥の眉毛が隣の家の王さんの眉毛よりもわずかに太いかどうかなどを瞬時に識別することが流行しています。しかし、問題はあります。ニューラルネットワークは賢いのですが、「なぜこれがこれだと判断したのか？」を説明しようとすると、まるでテストで解法を説明できない生徒のように、支離滅裂でまともな説明ができません。従来のClass Activation Map（クラス活性化マップ）は…

xAI Grok-3、大規模言語モデル競技場でGPT4.5を破り首位に

xAIは最近、最新のAIモデルGrok-3がChatbot Arenaランキングで高い評価を得たというエキサイティングなニュースを発表しました。「grok-3preview-02-24」と名付けられたこのモデルは、いくつかの重要な分野で卓越した性能を示しました。xAIのGrok-3-Preview-02-24は、僅か1点差でGPT4.5-Previewを上回りました。Grok-3は3,000票以上を獲得し、全体として…