上海AI研究所が初の画像テキスト混合生成大規模モデル「浦語霊筆」をオープンソース化

上海人工智能实验室

公開日AIニュース · 1 分で読めます · Oct 10, 2023

114

この度、上海人工知能研究所（上海AI研究所）は、初の画像とテキストの混合生成大規模言語モデル「書生・浦語霊筆（InternLM-XComposer）」を発表しました。浦語霊筆は、流暢な中国語と英語での画像とテキストの対話が可能で、画像の内容を正確に理解し、「ワンクリック生成」による画像とテキストの混合記事の作成機能も備えています。ユーザーがテーマを提供するだけで、浦語霊筆は画像とテキストを組み合わせた記事をワンクリックで生成します。浦語霊筆は、テキストの生成、イラストの計画、画像のスマートな選別という「3ステップ」のアルゴリズムで画像とテキストの記事を作成します。複数の主要なマルチモーダルモデルの評価において、浦語霊筆は常にトップレベルのパフォーマンスを示しており、特に中国語のマルチモーダル理解においては非常に優れています。浦語霊筆はGitHubなどのプラットフォームでオープンソース化されており、開発者の皆様による試用と革新的なアプリケーション開発を歓迎します。

大規模モデルマルチモーダルオープンソース

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

芯驰、次世代4ナノメートルAIコックピットチップX10を発表、インテリジェント運転体験を向上

芯馳科技が、次世代の4ナノメートルAIコックピットチップX10を発表しました。このチップは、高度なAI機能と70億パラメーターのマルチモーダル大規模モデルを搭載し、インテリジェント運転体験を大幅に向上させます。よりスムーズで安全な運転を実現する革新的な技術が搭載されています。

Apr 27, 2025

Moonshot AIがKimi-Audioを発表：オープンソースの音声基礎モデルが新たな基準を確立

この度、Moonshot AIは、音声の理解、生成、インタラクション分野における技術の進歩を促進することを目的とした、全く新しいオープンソースの音声基礎モデルであるKimi-Audioを発表しました。この発表は、世界中のAIコミュニティから大きな注目を集め、マルチモーダルAI発展における重要なマイルストーンとみなされています。以下は、Kimi-Audioの主要な特徴、パフォーマンス、業界への影響に関する包括的なレポートです。画期的な特徴：万能な音声処理能力Kimi-Audio-7B-InstructはQwenに基づいています。

Apr 27, 2025

Step1X-Edit：オープンソース画像編集の新基準 GPT-4oなどのクローズドソースモデルに匹敵

Apr 27, 2025

上海、自動車産業の革新とアップグレードを推進、高性能計算チップやインテリジェント運転大規模モデルなどの革新的技術の応用を強化

Apr 25, 2025

Meta、WebSSLモデルを発表：言語不要のビジョン学習における新たな探求

人工知能の分野において、Meta社は最近、WebSSLシリーズモデルを発表しました。このシリーズモデルは、パラメータ規模が3億から70億と異なり、純粋な画像データに基づいてトレーニングされ、言語なしの監督によるビジョン自己教師あり学習（SSL）の可能性を探求することを目的としています。この新たな研究は、将来のマルチモーダルタスクに新たな可能性をもたらし、ビジョン表現の学習方法の理解についても新たな視点を与えてくれます。これまで、OpenAIのCLIPモデルは、ビジュアル質問応答（VQA）や文書理解などのマルチモーダルタスクにおける優れた性能で知られていました。

Apr 25, 2025

30.5Kスター！このAIツール設計の宝庫、開発者たちが熱狂する理由とは？

GitHub上で「system-prompts-and-models-of-ai-tools」というオープンソースプロジェクトが大きな注目を集め、30.5Kスターを獲得し、AI開発者や研究者にとって貴重なリソースとなっています。AIbaseの調査によると、このプロジェクトは9つの主要なAIツールのシステムプロンプトとモデル設定を網羅しており、6500行以上の内容を含み、v0、Cursor、Manus、Same.dev、Lovable、Devin、Repなどをカバーしています。

Apr 25, 2025

百度、AIへの扉を開く：AI開放計画発表、トラフィックと収益の両面を促進

Apr 25, 2025

Receita projetada para crescer quase 10 vezes! Comercialização de modelos de IA médica inovadores acelera, mirando R$ 40 milhões para o próximo ano

Apr 24, 2025

199元！Xiaomi新型スマートスピーカー発表：AI大規模モデル搭載、インテリジェントな会話がさらに進化

Apr 24, 2025

ステップスターとゲンリキ・インテリジェンスが戦略的提携

ステップスターとゲンリキ・インテリジェンスは北京において戦略的提携契約を締結しました。両社はそれぞれの技術的優位性を活かし、マルチモーダル大規模言語モデル技術、インテリジェントターミナルエージェント、エンボディッドAIのシナリオにおいて緊密な協力を展開します。今回の提携の目標は「物理世界における推論の実現」であり、共同で「RoboAgent」と呼ばれるインテリジェントロボットを開発し、汎用人工知能（AGI）の現実世界への応用を推進することです。調印式には、ステップスターの創業者兼CEOである姜大昕博士とゲンリキ・インテリジェンスの共同創業者が出席しました。

Apr 24, 2025

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

上海AI研究所が初の画像テキスト混合生成大規模モデル「浦語霊筆」をオープンソース化

上海人工智能实验室

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

芯驰、次世代4ナノメートルAIコックピットチップX10を発表、インテリジェント運転体験を向上

Moonshot AIがKimi-Audioを発表：オープンソースの音声基礎モデルが新たな基準を確立

Step1X-Edit：オープンソース画像編集の新基準 GPT-4oなどのクローズドソースモデルに匹敵

上海、自動車産業の革新とアップグレードを推進、高性能計算チップやインテリジェント運転大規模モデルなどの革新的技術の応用を強化

Meta、WebSSLモデルを発表：言語不要のビジョン学習における新たな探求

30.5Kスター！このAIツール設計の宝庫、開発者たちが熱狂する理由とは？

百度、AIへの扉を開く：AI開放計画発表、トラフィックと収益の両面を促進

Receita projetada para crescer quase 10 vezes! Comercialização de modelos de IA médica inovadores acelera, mirando R$ 40 milhões para o próximo ano

199元！Xiaomi新型スマートスピーカー発表：AI大規模モデル搭載、インテリジェントな会話がさらに進化

ステップスターとゲンリキ・インテリジェンスが戦略的提携