智譜AI、無料のマルチモーダルモデルGLM-4V-Flashをリリース：画像処理精度向上

AIbase基地

公開日AIニュース · 1 分で読めます · Dec 10, 2024

240

北京智譜華章科技有限公司は、同社の智譜オープンソースプラットフォームBigModelにおいて、初の無料多様なAPIであるGLM-4V-Flashを発表しました。この新しいモデルは、4Vシリーズモデルの優れた能力を基に、画像処理の精度を向上させ、開発者が様々な分野で高度な大規模モデルを活用するためのハードルをさらに低くしました。

GLM-4V-Flashモデルは、画像キャプション生成、画像分類、視覚推論、視覚質問応答（VQA）、画像感情分析など、高度な画像処理機能を備えており、中国語、英語、日本語、韓国語、ドイツ語を含む26の言語をサポートしています。このモデルは、特定の垂直業界に特化した正確なソリューションを提供し、開発者が大規模モデルの時代に迅速に参入できるよう支援します。高額な画像処理コストを負担する必要はありません。

智譜 AI

智譜オープンソースプラットフォームBigModelは、開発者がGLM-4V-Flashの画像精密処理における利点を活用し、モデルの基本能力を実用的なアプリケーションシーンに変換することを推奨しています。情報抽出、コンテンツ作成、画像認識など、あらゆる分野で、GLM-4V-Flashは作業効率とユーザーエクスペリエンスを大幅に向上させることができます。

GLM-4V-Flashモデルは、ソーシャルメディアの文案作成、教育イノベーション支援、美容相談アシスタント、安全検査、OCR保険証情報抽出、作業指示書品質検査、EC商品説明生成、多様なデータアノテーションなど、すでに多くの業界シーンで大きな効果を発揮しています。

体験センター:

https://www.bigmodel.cn/console/trialcenter

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル（MoE）アーキテクチャにおける主要なボトルネックを克服し、COMETという名称の重要な最適化技術をオープンソース化したと発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40％削減することに成功しました。画像注記：画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。COMET技術は、バイトダンスの万規模GPUクラスタトレーニングで実際に適用されており、数百万GPU時間の節約に貢献しています。

智元、家庭用ロボットベースの大規模言語モデルGO-1を発表成功率が大幅に向上

3月10日、智元ロボットは、初の汎用具象ベースの大規模言語モデルであるGenie Operator-1（GO-1と略称）を発表しました。この発表は大きな注目を集め、特に家庭用サービスロボットの可能性という点において、将来の家事管理に新たな希望をもたらすものとして期待されています。智元ロボットの公式発表によると、GO-1大規模言語モデルは大量の人間のビデオ学習を通じて、コップの水を運ぶ、食事を作る、客を迎えるなど、多くの家事タスクをこなす優れた能力を示しています。技術性能に関しては、

国家スパコンインターネットプラットフォームが阿里巴巴の千問大規模言語モデルに接続、QwQ-32B APIを提供開始

報道によると、国家スパコンインターネットプラットフォームは阿里巴巴の通義千問大規模言語モデルへの接続を発表し、千問QwQ-32B APIサービスの正式提供を開始しました。本サービスを利用するユーザーは、最大100万トークンを無料で利用でき、多くの開発者や研究者にとって絶好の機会となります。千問QwQ-32Bは阿里巴巴通義チームが最近オープンソース化した推論モデルであり、優れた性能を誇ります。複数の権威ある評価データによると、千問QwQ-32Bの能力は「フルバージョン」の671Bと匹敵します。