IBMは最近、企業とオープンソースコミュニティ向けに「小型、高効率、実用的」なエンタープライズAIソリューションを提供することを目的とした、最新の巨大言語モデルGranite3.2を発表しました。このモデルは、マルチモーダル機能と推論能力を備えているだけでなく、柔軟性とコスト効率も向上しており、ユーザーにとって採用しやすくなっています。
Granite3.2は、ドキュメントの処理、データの分類と抽出を行うビジョン言語モデル(VLM)を導入しました。IBMは、この新しいモデルがLlama3.2 11BやPixtral12Bなどのより大規模なモデルと同等以上の性能をいくつかの主要なベンチマークテストで達成したと主張しています。さらに、Granite3.2の8Bモデルは、標準的な数学的推論ベンチマークテストでも、より大規模なモデルに匹敵するか、それを上回る能力を示しました。
推論能力を向上させるために、Granite3.2の一部のモデルには「思考連鎖」機能が備わっており、中間推論ステップを明確に示すことができます。この機能は、大きな計算能力を必要としますが、ユーザーは必要に応じていつでも有効化または無効化して、効率を最適化し、全体的なコストを削減することができます。IBM AIリサーチの副社長であるSriram Raghavan氏は発表会で、次世代AIの重点は効率性、統合、そして現実的な影響であり、企業が予算を超えることなく強力な成果を実現することだと述べました。
推論能力の向上に加えて、Granite3.2は「Granite Guardian」セキュリティモデルの小型版も発表しました。サイズは30%縮小されましたが、パフォーマンスは前世代モデルと同等に維持されています。さらに、IBMは「表現可能な信頼度」と呼ばれる機能も導入しました。この機能は、リスクをより詳細に評価し、セキュリティ監視において不確実性を考慮することができます。
Granite3.2は、IBMのオープンソースDoclingツールキットでトレーニングされました。このツールキットにより、開発者はドキュメントを、カスタムエンタープライズAIモデルに必要な特定のデータに変換できます。モデルのトレーニングでは、8500万件のPDFファイルと2600万件の合成Q&Aペアを処理し、VLMが複雑なドキュメントワークフローを処理する能力を強化しました。
IBMはまた、次世代のTinyTimeMixers(TTM)モデルを発表しました。これは、多変量時系列予測に特化したコンパクトな事前トレーニング済みモデルであり、最長2年先までの長期予測能力を備えています。
公式ブログ: https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision
要点:
📊 Granite3.2はビジョン言語モデルを導入し、ドキュメント処理とデータ抽出能力を向上させました。
💡 新モデルは思考連鎖機能を備えており、推論プロセスを明確にし、推論能力を強化します。
🔍 Granite Guardianセキュリティモデルは30%小型化されましたが、パフォーマンスは影響を受けず、表現可能な信頼度によるリスク評価機能も導入されました。