AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

大ニュース！中国のAIが新たな主力部隊を投入！昆仑万维 Skywork R1V 多モーダル推論モデルが衝撃のオープンソース化！

AIbase基地

公開日AIニュース · 1 分で読めます · Mar 18, 2025

昆仑万维は本日、開発したSkywork R1V多モーダル推論モデルの正式オープンソース化を発表しました！これは中国初の産業界によるオープンソースの多モーダル推論モデルであるだけでなく、中国のAI技術が、多モーダル理解と推論の分野で画期的な一歩を踏み出したことを意味します！本日より、モデルのウェイトと技術レポートが完全に公開されます！

AIモデルが画像を理解するだけでなく、人間のように論理的推論を行い、複雑な視覚的問題を解決できると想像してみてください。これはもはやSF映画の場面ではなく、Skywork R1Vが実現しつつある能力です！このモデルは「AI界のシャーロック・ホームズ」のような存在で、綿密な分析により、膨大な視覚情報から深層的な意味を抽出し、正確な答えを導き出します。視覚ロジックパズルを解いたり、高度な視覚数学の問題を解いたり、画像内の科学現象を分析したり、さらには医学画像診断の推論を支援したりと、Skywork R1Vは驚異的な能力を発揮します。

AIモデルの「知能」を測るには、データが最も説得力があります！推論能力において、Skywork R1Vは権威あるMATH500とAIMEベンチマークテストで、それぞれ94.0と72.0という非常に高いスコアを獲得しました！これは、複雑な数学の問題を解いたり、厳密な論理的推論を行ったりする際に、Skywork R1Vが容易にこなせることを意味します。さらに驚くべきことに、その強力な推論能力は視覚分野にも成功裏に「移植」され、MMMUとMathVistaなどの視覚推論ベンチマークテストで、それぞれ69と67.5の高得点を獲得しました！これらの強力なデータは、Skywork R1Vがトップレベルの論理推論と数学分析能力を備えていることを直接的に証明しています！

昆仑万维は、Skywork R1Vモデルの背景には、3つの重要な技術革新が凝縮されていると誇りを持って述べています。

まず、テキスト推論能力の多モーダル効率的転移です。昆仑万維チームは独自の道を切り開き、Skywork-VLの視覚プロジェクターを巧みに利用することで、莫大な費用をかけて言語モデルと視覚エンコーダーを再トレーニングする必要がなく、「カンフーの気功」のように、元々強力なテキスト推論能力を視覚タスクに完璧に移行させ、元のテキスト推論能力にも全く影響を与えません！

次に、多モーダル混合型トレーニング（Iterative SFT+GRPO）です。このトレーニング方法は、モデルに「混合栄養食」を与えているようなもので、反復的監督微調整とGRPO強化学習を巧みに組み合わせることで、段階的かつ戦略的に視覚・テキスト表現を整合させ、最終的にクロスモーダルタスクの高効率融合を実現し、モデルのクロスモーダル能力を飛躍的に向上させました！MMMUとMathVistaベンチマークテストでは、Skywork R1Vのパフォーマンスは、より大規模なクローズドソースモデルに匹敵するほどです！

最後に、適応長思考連鎖蒸留です。昆仑万維チームは革新的に「インテリジェントブレーキ」メカニズムを提案しました。モデルは視覚・テキストの複雑さに応じて、推論チェーンの長さを適応的に調整し、「考えすぎ」を防ぎ、推論精度を維持しながら推論効率を大幅に向上させます！さらに多段階自己蒸留戦略と組み合わせることで、モデルのデータ生成と推論品質がさらに向上し、複雑な多モーダルタスクでもより柔軟に対応できます！

Skywork R1Vのオープンソース化は、中国のみならず世界のAI研究者や開発者にとって、強力な多モーダル推論「ツール」を提供することになります。その登場は、多モーダルAI技術の革新と応用を加速させるだけでなく、AI技術の各業界への深い融合を促進し、よりスマートでより良い未来を切り開くでしょう！

SkyworkR1V 多モデル推論モデル AIモデルオープンソース画像処理

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

香港と英国の研究チームが革新的な画像トークン化手法を提案階層構造により再構成品質を向上

香港と英国の研究者チームが最近、画像をよりコンパクトで正確なデジタル表現（トークン）に変換するための新しい画像トークン化手法を提案しました。従来の手法では情報がすべてのトークンに均等に分散されるのに対し、この手法は階層構造を採用し、層ごとに視覚情報を捉えることで、画像の再構成品質と効率性を向上させています。従来の画像トークン化技術は通常、画像の各部分を複数のトークンに均等に分割しますが、この新しい手法は階層構造を採用しています。最初のトークンは、大まかな形状と構造要素を符号化します。

Apr 24, 2025

階躍星辰、新たなマルチモーダル推論モデルStep-R1-V-Miniを発表

階躍星辰科技チームは、新たなマルチモーダル推論モデルStep-R1-V-Miniの正式リリースを発表しました。このモデルの発表は、マルチモーダル協調推論分野における新たなブレークスルーを意味し、AI技術の更なる発展に新たな活力を注ぎ込みます。Step-R1-V-Miniは画像とテキストの入力をサポートし、テキストを出力します。優れた指示遵守能力と汎用性を備え、高精度で画像を認識し、複雑な推論タスクを完了させることができます。

Apr 9, 2025

李飛飛チーム、従来の限界を超える新型画像処理技術を発表

Mar 21, 2025

Kunlun Wanwei veröffentlicht das Skywork R1V visuelle Kettenfolgerungsmodell

Mar 18, 2025

110

画像効果変換技術LBM：ワンクリックで通行人を除去、光量調整も可能

Mar 17, 2025

110

マイクロソフト、オープンソース画像モデルARTを発表多レイヤー透明画像生成が可能に

Mar 5, 2025

小型ながら強力！マイクロソフトが小型モデルLLaVA-Radを発表、正確な放射線医学レポート生成を実現

先日、マイクロソフトリサーチはワシントン大学、スタンフォード大学、南カリフォルニア大学、カリフォルニア大学デービス校、カリフォルニア大学サンフランシスコ校の研究者らと共同で、LLaVA-Radを発表しました。これは、臨床放射線医学レポート作成の効率向上を目指した、新しい小型マルチモーダルモデル（SMM）です。このモデルの発表は、医学画像処理技術の大きな進歩を示すだけでなく、放射線医学の臨床応用にも新たな可能性をもたらします。バイオメディカル分野では、大規模基礎モデルに基づいた研究が進展しています。

Feb 10, 2025

2.0k

Gemini AI、画像処理における新たな飛躍：リアルタイム動画と静止画の同時分析

GoogleのGemini AIは最近、複数のビジュアルストリームを同時に処理できるという目覚ましい技術的進歩を遂げました。これはAI分野において前例のない成果です。この機能は、Googleの主要プラットフォームではなく、「AnyChat」という実験的なアプリケーションを通じて公開されました。Gemini AIのこの新たな能力により、リアルタイムで動画を視聴するだけでなく、静止画を同時に分析することも可能になり、これまでAIが単一のビジュアル入力しか処理できなかったという制限を打破しました。

Jan 15, 2025

2.5k

Microsoft ペイントアプリ、AI消去機能を追加！無料で簡単に不要な要素を削除！

Microsoftは、定番のペイントアプリをアップデートし、AIベースの消去機能を追加しました。これにより、画像処理が大幅に容易になります。この機能は、削除したい要素をマウスで選択するだけで、AIが自動的に認識して消去するため、従来の画像処理の手間を省けます。2ヶ月間のテストを経て、この新機能は全ユーザーに正式リリースされました。Microsoft Storeで最新バージョンにアップデートすれば、無料で利用可能です。ただし、AIモデルの特性上、

Jan 14, 2025

1.9k

アリババクラウド、Qwen-VL大規模言語モデルの価格を再び値下げ：1元で600枚の画像処理が可能に

今年5月と9月に2度の値下げを実施した後、アリババクラウドは再び大規模言語モデルの価格改定を発表し、今年3度目の値下げとなります。今回の値下げ幅は非常に大きく、通義千問シリーズの画像認識モデル全線が80％以上値下げされました。特に、Qwen-VL-Plusモデルは81％値下げされ、入力価格はわずか0.0015元/千tokensと業界最安値を達成しました。より高性能なQwen-VL-Maxも85％値下げされ、0.003元/千tokensとなりました。

Dec 31, 2024

6.3k

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要