マイクロソフト、Phi-4 マルチモーダル＆ミニモデルを発表、音声・画像・テキスト処理が進化

AIbase基地

公開日AIニュース · 1 分で読めます · Feb 27, 2025

15.8k

この度、マイクロソフトはPhi-4ファミリーをさらに拡張し、2つの新しいモデル、Phi-4多様なモデル（Phi-4-multimodal）とPhi-4ミニ（Phi-4-mini）を発表しました。これらのモデルが登場したことで、様々なAIアプリケーションに、より強力な処理能力が提供されることになります。

Phi-4多様なモデルは、音声、視覚、テキスト処理を統合したマイクロソフト初の統一アーキテクチャモデルであり、5600万パラメーターを備えています。このモデルは、複数のベンチマークテストで優れた性能を示し、GoogleのGemini 2.0シリーズなどの市場にある多くの競合製品を上回っています。特に、自動音声認識（ASR）と音声翻訳（ST）タスクにおいては顕著な成果を上げており、Whisper V3やSeamlessM4T-v2-Largeなどの専門的な音声モデルを凌駕し、単語誤り率6.14％でHugging Face OpenASRランキングで1位を獲得しました。

視覚処理においても、Phi-4多様なモデルは優れた性能を発揮しています。数学や科学的推論における能力は非常に高く、文書やグラフを効果的に理解し、光学文字認識（OCR）を実行できます。Gemini-2-Flash-lite-previewやClaude-3.5-Sonnetなどの一般的なモデルと比較しても、同等以上の性能を示しています。

もう一つの新モデルであるPhi-4ミニは、テキスト処理タスクに特化したモデルで、パラメーター数は3800万です。テキスト推論、数学計算、プログラミング、指示に従うなどの面で、Phi-4ミニは多くの一般的な大規模言語モデルを上回っています。新しいモデルの安全性と信頼性を確保するために、マイクロソフトは社内外のセキュリティ専門家を招いて包括的なテストを実施し、マイクロソフトAIレッドチーム（AIRT）の基準に従って最適化を行いました。

これらの2つの新しいモデルは、ONNX Runtimeを使用して様々なデバイスに展開でき、低コストで低遅延のアプリケーションシナリオに適しています。Azure AI Foundry、Hugging Face、NVIDIA APIカタログで利用可能になり、開発者が使用できます。Phi-4シリーズの新しいモデルは、マイクロソフトの高効率AI技術における大きな進歩を示しており、将来のAIアプリケーションの可能性を広げるものです。

AI大規模言語モデルの幻覚ランキング：Gemini 2.0 Flashが幻覚率最低

最近、Vectaraは「幻覚ランキング」と題するレポートを発表し、様々な大規模言語モデル（LLM）が短い文書を要約する際に生じる幻覚を比較しました。このランキングは、VectaraのHughes幻覚評価モデル（HHEM-2.1）を利用しており、このモデルは定期的に更新され、要約に虚偽の情報が含まれる頻度を評価することを目的としています。最新のデータによると、このレポートは、いくつかの一般的なモデルの幻覚率、事実の一貫性率、応答率、平均要約の長さなどの重要な指標を示しています。

グーグル、Gemini 2.0搭載の新たな検索「AIモード」を内部テスト

グーグル検索は、よりオープンで探究的な質問ができる「持続的な空間」を提供することを目的とした新機能「AIモード」の内部テストを実施しています。この新たな体験は、グーグルのGemini 2.0テクノロジーに基づいており、現在従業員の間でテストされています。社内メールによると、「AIモード」は、情報を整理して簡単に理解できるようにし、ウェブ上の関連コンテンツを探求するためのリンクを提供することで、スマート検索能力を新たなレベルに引き上げます。このモードは特に、

Google、Gemini 2.0の全シリーズモデルを発表　3つのモデルが性能とコストの両面でブレークスルー

Googleは、人工知能モデルファミリーを拡張し、Gemini 2.0の3つの新バージョンを発表しました。基礎版Gemini 2.0 Flash、経済版Gemini 2.0 Flash-Lite、そして実験版Gemini 2.0 Proです。これらの新しいモデルは、さまざまな使用ニーズに対応し、性能とコストのバランスを取ることが目的です。基礎版Gemini 2.0 Flashは昨年12月に最初にリリースされ、現在は完全にオンラインになり、より高度な...

Google、Gemini 2.0 Flash Thinking を大幅アップグレード、長文コンテキスト処理能力が最高レベルに到達

Googleは2025年1月22日、推論モデルGemini 2.0 Flash Thinking の強化版を正式リリースし、Chatbot Arena で首位を奪還しました。今回のアップグレードは主に長文コンテキストの処理能力に焦点を当てており、最大100万トークンの入力をサポートすることで、長文テキスト処理におけるより深い分析能力をユーザーに提供します。Google AI責任者のJeff Dean氏は発表会で、今回の試験的なアップデートはモデルの…

AIニュース