【AI日報】へようこそ!ここは、あなたが毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットなニュースをお届けし、開発者をフォーカスすることで、技術トレンドの把握や革新的なAI製品の応用に関する理解を深めます。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、Kimiオープンソースビジュアル言語モデルKimi-VLとKimi-VL-Thinking、複数のベンチマークでGPT-4oを上回る

Moonshot AIは最近、優れたマルチモーダルな理解と推論能力を示す、Kimi-VLとKimi-VL-Thinkingという2つのビジュアル言語モデルをオープンソース化しました。これらのモデルは軽量なMoEアーキテクチャを採用しており、パラメータはわずか30億個ですが、複数のベンチマークテストでGPT-4oを上回っています。Kimi-VLシリーズは、数学的推論、エージェント操作、高解像度画像処理などで優れた性能を発揮し、超ロングコンテキストの理解をサポートすることで、幅広い応用可能性を示しています。

image.png

【AiBase要点:】

🛠️ Kimi-VLとKimi-VL-Thinkingは、軽量なMoEアーキテクチャを採用しており、パラメータはわずか30億個で、実行効率が高いです。

📊 MathVisionとScreenSpot-Proのテストで、Kimi-VLはそれぞれ36.8%と34.5%という優れた成績を収め、強力な推論能力を示しました。

📈 最大128Kトークンのコンテキスト入力をサポートしており、長文ドキュメントやビデオ分析に適しており、幅広い応用可能性を示しています。

詳細リンク:https://github.com/MoonshotAI/Kimi-VL https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

2、科大訊飛傘下の訊飛星辰Agent開発プラットフォームがMCPを全面的にサポート

科大訊飛は最近、開発者がAgentアプリケーションを効率的に構築できるよう、訊飛星辰Agent開発プラットフォームがMCPを全面的にサポートすると発表しました。このプラットフォームは、業界をリードするMCP Serverを簡単に設定および呼び出すことができるだけでなく、ワンクリックでカスタムMCP Serverを公開して、真の「プラグアンドプレイ」を実現します。最初にサポートされるMCP Serverは複数の業界をカバーしており、AIアプリケーションのミドルウェアの標準化を促進します。

image.png

【AiBase要点:】

🌟 開発者は、業界をリードするMCP Serverを簡単に設定および呼び出すことができ、ワンクリックでカスタムMCP Serverを公開できます。

🔧 最初にサポートされるのは20以上の業界の優れたMCP Serverで、AI能力、生活サービスなど複数の分野をカバーしています。

🌐 訊飛星辰Agent開発プラットフォームは、ノーコードおよびローコード作成モードをサポートしており、個人と企業が迅速に大規模モデルアプリケーションを開発できるようにします。

詳細リンク:https://mcp.xfyun.cn/

3、昆侖万維がSkywork-OR1シリーズモデルをオープンソース化、数学とコードの能力が優れている

昆侖万維天工チームは4月13日、大幅にアップグレードされたSkywork-OR1シリーズモデルを発表し、論理推論と複雑なタスク解決における大きなブレイクスルーを示しました。このシリーズには、数学とコードの分野を対象とした3つの高性能モデルが含まれており、優れた推論能力とコストパフォーマンスを示しています。Skywork-OR1-32B-Previewは、競技プログラミングタスクで特に優れた性能を発揮し、そのトレーニング戦略の進歩を示しています。

image.png

【AiBase要点:】

🔍 Skywork-OR1シリーズモデルは、論理的理解と複雑なタスク解決において、業界をリードする推論性能を実現しました。

💻 Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview、Skywork-OR1-32B-Previewの3つの高性能モデルが含まれており、さまざまなニーズに対応します。

🏆 Skywork-OR1-32B-Previewは、競技プログラミングタスクで優れた性能を発揮し、DeepSeek-R1の能力に近づいており、優れたコストパフォーマンスを示しています。

詳細リンク:https://github.com/SkyworkAI/Skywork-OR1

4、バイトダンスがSeed-Thinking-v1.5を発表:推論AI競争における新たな力

バイトダンスが発表した新型大規模言語モデルSeed-Thinking-v1.5は、推論AI競争において強力な能力を示しています。このモデルは混合専門家アーキテクチャを採用しており、複数のベンチマークテストで業界の巨人、特に科学、技術、数学、工学の分野で優れています。技術革新と効率的なトレーニング方法により、Seed-Thinking-v1.5は推論能力を向上させただけでなく、非推論タスクでも優れた性能を発揮しています。

image.png

【AiBase要点:】

🚀 バイトダンスがSeed-Thinking-v1.5を発表し、STEM分野に特化し、混合専門家アーキテクチャを採用しています。

🏆 複数のベンチマークテストで優れた成績を収め、GoogleやOpenAIの製品を上回っています。

🔍 先進的なトレーニング技術と強化学習フレームワークを採用し、モデルの性能と効率を向上させています。

5、商湯の大規模装置SenseCore 2.0が大幅にアップグレード、1億元の代金券プログラムを発表

2025年の商湯テクノロジー交流会で、商湯科技は、企業に効率的で柔軟なフルスタックAIインフラストラクチャサービスを提供することを目的とした、大規模装置SenseCore 2.0の大幅なアップグレードを発表しました。今回のアップグレードは、大規模モデル産業の3つの課題に対応しており、技術革新を通じて演算能力の利用率と推論性能を大幅に向上させています。さらに、商湯科技は1億元の特別代金券を投入し、さまざまな業界におけるAIの迅速な導入を支援します。

image.png

【AiBase要点:】

⚙️ SenseCore 2.0が大幅にアップグレードされ、AIインフラストラクチャサービスのコストパフォーマンスと柔軟性が向上しました。

🤝 商湯と松應科技が戦略的パートナーシップを結び、具象知能技術の発展を推進し、インテリジェント化の導入における課題を解決します。

💰 1億元の代金券を投入し、企業のコンサルティングからモデルトレーニングまでのフルプロセスのAIサービスをサポートします。

6、Google AI StudioがVeo 2ビデオモデルの限定無料トライアルを提供

Google AI Studioは最近、一部のユーザーにVeo 2ビデオモデルの限定無料トライアルを提供し、大きな注目を集めています。Veo 2は最新世代のAIビデオ生成ツールであり、最大4K解像度とリアルな物理シミュレーションをサポートし、その強力な技術力を示しています。しかし、トライアル権限は厳しく制限されており、ユーザーは冷却時間と今後の使用に関する不明瞭さに困惑しています。

image.png

【AiBase要点:】

🌟 Veo 2ビデオモデルはGoogle DeepMindによって開発され、最大4K解像度をサポートし、卓越した生成能力を示しています。

🕒 トライアル権限は限定されており、ユーザーからの冷却時間に関する不明瞭なフィードバックが、体験に影響を与える可能性があります。

🔒 Googleは生成されたコンテンツを厳しく管理し、ユーザーのプライバシーと安全性を確保しています。

7、上海AI研究所がInternVL3シリーズマルチモーダル大規模言語モデルをオープンソース化

OpenGVLabは4月11日、InternVL3シリーズモデルを発表し、マルチモーダル大規模言語モデル分野における新たなマイルストーンを打ち立てました。このシリーズモデルは、1Bから78Bまでのさまざまなサイズがあり、テキスト、画像、ビデオなどのさまざまな情報を処理する能力を備えており、性能が大幅に向上しています。前世代の製品と比較して、InternVL3はマルチモーダルな知覚と推論において顕著な進歩を遂げ、ツールの使用、産業用画像分析などの分野を拡大しています。

image.png

【AiBase要点:】

🧠 InternVL3シリーズモデルは、1Bから78Bまでのさまざまなサイズをサポートし、卓越したマルチモーダル処理能力を示しています。

🔍 InternVL2.5と比較して、InternVL3はマルチモーダルな知覚と推論能力が大幅に向上しており、複数の画像とビデオデータに対応しています。

⚙️ モデルはLMDeployのapi_serverを使用してOpenAI互換APIとしてデプロイでき、ユーザーは簡単にモデルを呼び出すことができます。

詳細リンク:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e

8、AIの「知能指数」テストの変革!新しいGAIAベンチマークがARC-AGIを上回る

人工知能技術の急速な発展に伴い、AIの知能レベルを正確に評価する方法が業界の関心の焦点となっています。MMLUなどの従来の評価ベンチマークは広く使用されていますが、その限界が徐々に明らかになり、実際のアプリケーションにおけるAIの能力を完全に反映することはできません。新たに発表されたGAIAベンチマークは、現実世界の複雑な問題をシミュレートすることで、AIが複数ステップのタスクにおける柔軟性と専門性を強調しており、AI評価方法の大きな転換を示しています。

image.png

【AiBase要点:】

🔍 新しいGAIAベンチマークは、実際のアプリケーションにおけるAIの能力を評価することを目的としており、マルチモーダルな理解や複雑な推論などの重要なスキルを網羅しています。

📊 MMLUなどの従来のベンチマークの高得点は、AIの実際の能力を意味するものではなく、実際のアプリケーションにおけるパフォーマンスの違いは顕著です。

🚀 GAIAベンチマークの初期の結果は、柔軟性の高いモデルが複雑なタスクで他の著名なモデルよりも優れたパフォーマンスを示していることを示しています。

詳細リンク:https://huggingface.co/gaia-benchmark

9、100ドルの費用でオープンソースビデオモデルPusaを作成:Mochiファインチューニングに基づき、低コストで高品質を再現

Pusaは、Mochiファインチューニングに基づいたオープンソースビデオ生成モデルであり、低コストで完全にオープンソースであるという特徴があります。トレーニングコストは約100ドルですが、Pusaは優れたビデオ生成能力を示しており、さまざまな生成タスクに対応しています。そのオープンなファインチューニングプロセスは、コミュニティの協力と発展を促進し、より多くの研究者がビデオモデルの研究に参加するよう促しています。

image.png

【AiBase要点:】

💰 Pusaモデルのトレーニングコストはわずか100ドルで、従来の大規模ビデオモデルの数万ドル、場合によっては数十万ドルのコストを大幅に下回っています。

🔧 Pusaは完全にオープンソースであり、完全なコードライブラリとトレーニング方法を提供しており、研究者は実験を再現し、イノベーションを行うことができます。

🎬 Mochiベースのファインチューニングにより、Pusaはさまざまなビデオ生成タスクに対応しています。現在の解像度は480pですが、モーションの忠実度とプロンプトの遵守において潜在能力を示しています。

詳細リンク:https://top.aibase.com/tool/pusa

10、バイトダンスのオープンソースプロジェクトUNO:画像生成においてキャラクターやオブジェクトの一貫性を維持できる

バイトダンスのオープンソースプロジェクトUNOは、AI画像生成分野で重要なブレイクスルーを達成し、従来の画像生成におけるキャラクターやオブジェクトの一貫性の問題を解決しました。革新的な高一貫性データ合成プロセスとモデル設計により、UNOは単一主体でも複数主体でも、生成された画像の特徴の一貫性を維持できます。

image.png

【AiBase要点:】

🧠 UNOプロジェクトは、AI画像生成におけるキャラクターの一貫性の問題を解決し、「顔盲症」を回避することを目的としています。

🔍 高一貫性データ合成プロセスと革新的なモデル設計を採用することで、UNOは画像生成のコントロール性を向上させています。

🎨 単一主体と複数主体の両方のシーンに対応しており、生成結果の高一貫性を確保しています。

詳細リンク:https://huggingface.co/bytedance-research/UNO

11、小鵬汽車が新しい物理大規模モデルを発表、AI自動車会社としての地位を確立

小鵬汽車の創設者である何小鵬氏は、ソーシャルメディアでAI自動車会社としての地位を強調し、人工知能の最大の価値は物理世界を変えることにあると述べています。同氏は、自動運転分野における小鵬の革新的な技術、特に強化学習とモデル蒸留について明らかにし、業界で独自の競争力があると述べています。さらに、小鵬は超大規模な物理世界モデルをトレーニングしており、AI技術の応用におけるリーダーシップを示しています。

image.png

【AiBase要点:】

🤖 小鵬汽車はAI自動車会社として、AI技術の物理世界への応用価値を強調しています。

🚀 強化学習とモデル蒸留技術を導入し、自動運転分野における競争力を高めています。

📅 2025年の発表会で小鵬の今後の発展方向と新型車X9が明らかにされます。

12、バイトダンスがAIスマートグラスを展開、次世代ウェアラブル機器市場に挑戦