2025年1月15日、北京月之暗面科技有限公司は、新しいマルチモーダル画像理解モデル「moonshot-v1-vision-preview」の正式リリースを発表しました。このモデルは、moonshot-v1モデルシリーズのマルチモーダル機能を強化し、Kimiによる世界理解を支援します。
Visionモデルは強力な画像認識能力を備え、複雑なディテールや微妙な違いを正確に識別できます。食べ物でも動物でも、似ているが異なるオブジェクトを区別できます。例えば、人間が識別しにくい16枚のブルーベリーマフィンとチワワの画像を、Visionモデルは正確に区別・識別できます。
Visionモデルは、国内トップクラスの高度な画像認識能力を備え、OCR文字認識や画像理解シーンで優れた性能を発揮します。一般的なファイルスキャンやOCR認識ソフトウェアよりも正確で、領収書や宅配伝票などの走り書きされた内容も認識できます。
Vision視覚モデルは、多回転会話、ストリーミング出力、ツール呼び出し、JSONモード、Partialモードなどの機能をサポートしますが、インターネット検索はサポートしていません。画像を含むコンテキストキャッシュの作成もサポートしていませんが、既に作成済みのキャッシュを使用してVisionモデルを呼び出すことは可能です。URL形式の画像はサポートしておらず、現在、base64エンコードされた画像データのみサポートしています。
モデル課金
モデル | 課金単位 | 価格 |
moonshot-v1-8k-vision-preview | 1Mトークン | ¥12.00 |
moonshot-v1-32k-vision-preview | 1Mトークン | ¥24.00 |
moonshot-v1-128k-vision-preview | 1Mトークン | ¥60.00 |