2025年1月15日、北京月之暗面科技有限公司は、新しいマルチモーダル画像理解モデル「moonshot-v1-vision-preview」の正式リリースを発表しました。このモデルは、moonshot-v1モデルシリーズのマルチモーダル機能を強化し、Kimiによる世界理解を支援します。

Visionモデルは強力な画像認識能力を備え、複雑なディテールや微妙な違いを正確に識別できます。食べ物でも動物でも、似ているが異なるオブジェクトを区別できます。例えば、人間が識別しにくい16枚のブルーベリーマフィンとチワワの画像を、Visionモデルは正確に区別・識別できます。

Visionモデルは、国内トップクラスの高度な画像認識能力を備え、OCR文字認識や画像理解シーンで優れた性能を発揮します。一般的なファイルスキャンやOCR認識ソフトウェアよりも正確で、領収書や宅配伝票などの走り書きされた内容も認識できます。

微信截图_20250115135433.png

Vision視覚モデルは、多回転会話、ストリーミング出力、ツール呼び出し、JSONモード、Partialモードなどの機能をサポートしますが、インターネット検索はサポートしていません。画像を含むコンテキストキャッシュの作成もサポートしていませんが、既に作成済みのキャッシュを使用してVisionモデルを呼び出すことは可能です。URL形式の画像はサポートしておらず、現在、base64エンコードされた画像データのみサポートしています。

モデル課金

モデル課金単位価格
moonshot-v1-8k-vision-preview1Mトークン¥12.00
moonshot-v1-32k-vision-preview1Mトークン¥24.00
moonshot-v1-128k-vision-preview1Mトークン¥60.00