AI日報：衝撃！アリババの新しい夸克がAIスーパーボックスにアップグレード；GoogleがマルチモーダルモデルGemma-3をオープンソース化；潞晨科技がビデオ大規模モデルOpen-Sora 2.0をオープンソース化

【AI日報】へようこそ！ここは、あなたが毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットなコンテンツをご紹介し、開発者を重視し、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをいたします。

最新のAI製品詳細はこちら：https://top.aibase.com/

1、アリババ、AIフラッグシップアプリ「新夸克」を発表　「AIスーパーボックス」に全面アップグレード

アリババは3月13日、全面的にアップグレードされた新しいAIフラッグシップアプリ「新夸克」を発表しました。このアプリはアリババの通義の高度な推論とマルチモーダル大規模モデルに基づいており、様々なAI機能を統合し、シームレスなインテリジェントエクスペリエンスを提供することを目指しています。新夸克はインテリジェントな会話だけでなく、深い思考力と実行力も備えており、様々なシーンでのユーザーニーズを満たすことができます。この革新を通じて、アリババはAIアプリケーション分野におけるリーダーシップをさらに強化し、将来の技術開発の基礎を築きました。

【AiBase要約:】
🤖 新夸克はAI対話、深層思考、深層検索などの複数の機能を統合し、ワンストップサービスを提供します。
📊 インテリジェントな中枢システムを通じて、新夸克はユーザーの指示を自動的に認識し、深く実行することができます。
🌐 アリババは、通義シリーズモデルの最新の成果を新夸克に迅速に導入し、機能を強化する計画です。

2、Google、次世代マルチモーダルモデルGemma-3をオープンソース化：優れた性能、コストを10分の1に削減

Googleが最近発表したマルチモーダル大規模モデルGemma-3は、低コストと高性能で注目を集めています。このモデルは最大270億パラメータまでの様々なパラメータ規模に対応し、わずか1枚のH100 GPUで効率的な推論が可能で、計算能力の要求が大幅に削減されています。Gemma-3は対話モデルの比較で優れたパフォーマンスを示し、長文処理とマルチモーダルデータに対応しており、強力な言語処理能力と革新的なアーキテクチャ設計を示しています。現在、最も計算能力の要求が低い高性能モデルの1つです。

【AiBase要約:】
🔍 Gemma-3はGoogleが最近オープンソース化したマルチモーダル大規模モデルで、パラメータの範囲は10億から270億で、計算能力の要求は10分の1に削減されています。
💡 革新的なアーキテクチャ設計を採用し、長いコンテキストとマルチモーダルデータを効果的に処理し、テキストと画像の同時処理に対応しています。
🌐 Gemma-3は140種類の言語に対応しており、トレーニングと最適化を経て、複数のタスクで優れたパフォーマンスを示し、強力な総合能力を備えています。
詳細リンク:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

3、百度文心一言、Comate Zulu版を発表　正式なパブリックテストを開始

百度傘下の文心一言はComate Zulu版を発表し、インテリジェントプログラミング分野における大きなブレークスルーを象徴しています。このバージョンは、文心大規模モデルの強力な能力と豊富なプログラミングビッグデータを組み合わせることで、開発者に高効率のプログラミングエクスペリエンスを提供します。ユーザーは自然言語でシステムとコミュニケーションを取り、プロジェクトを迅速に構築し、コードロジックを理解することで、開発効率を大幅に向上させることができます。パブリックテストは3月28日まで継続され、開発者は主要なIDEでこの革新的な機能を体験できます。

【AiBase要約:】
🛠️ 自然言語だけでニーズを実現し、コードを書かなくてもプロジェクトを自動的に構築でき、口語でのコミュニケーションと画像表示に対応しています。
📊 コードベースのビジネスロジックを迅速に理解し、アーキテクチャ図の整理とインテリジェントなアイデアの提案を行い、開発者が新しいプロジェクトに迅速に取り組むことができるように支援します。
⚙️ 開発環境を自動的に構築し、依存関係の自動インストールとサービスの自動起動に対応し、ニーズからコードまでのエンドツーエンドの生成を実現します。
詳細リンク:https://comate.baidu.com

4、バイトダンスTrae、シリコンクラウドに接続　DeepSeekの複数のモデルAPIに対応

シリコンクラウドプラットフォームとバイトダンスが発表したAI IDEであるTraeが正式に接続され、開発者のプログラミングエクスペリエンスが向上しました。ユーザーは簡単な手順でDeepSeek-R1、V3など、様々なコーディングモデルに接続し、様々なニーズに対応できます。プラットフォームは無料のAPIサービスも提供し、開発者がより効率的な開発プロセスを実現できるように支援します。今後、シリコンクラウドはモデルの種類と連携アプリケーションを継続的に拡張し、開発者に安定したサービスを提供することに取り組んでいきます。

【AiBase要約:】
🔧 Traeはシリコンクラウドに接続し、様々な効率的なコーディングモデルを提供し、プログラミングエクスペリエンスを向上させます。
🔑 ユーザーは簡単な手順でモデルを追加し、APIキーを取得できます。
🚀 シリコンクラウドは安定したAPIサービスの提供に取り組んでおり、今後モデルの種類を拡張する予定です。

5、大幅アップデート！Google AI Studioが進化：YouTube動画を瞬時に理解、AIによる絵画作成でもキャラクターの一貫性を維持

Google AI Studioの最新アップデートはテクノロジー業界に衝撃を与えました。ユーザーは、YouTubeのリンクから直接動画の内容を理解できるようになり、ダウンロードやアップロードは不要になりました。Gemini2.0Flash Experimentalモデルは、動画の解析において優れたパフォーマンスを示すだけでなく、画像生成においても驚異的な一貫性を示しています。これらの機能の導入は、GoogleがAIツール分野で大きな転換を遂げたことを示しており、単純なカプセル化技術に依存するAIツールに大きな影響を与える可能性があります。

【AiBase要約:】
🎥 Google AI Studioは現在、YouTube動画のリンクを直接解析できるようになり、ユーザーは動画の内容を迅速に理解できます。
🖼️ Gemini2.0Flash expは画像生成において優れたパフォーマンスを示し、複数の画像でキャラクターの一貫性を維持します。
⚡ このアップデートは、Google AI Studioが基本モデルからアプリケーションレベルのツールへの転換を示しており、既存のAIツールエコシステムに影響を与えます。
詳細リンク:https://ai.google.dev/gemini-api/docs/vision?lang=python&hl=zh-cn#youtube

6、Soraに対抗？潞晨科技、動画大規模モデルOpen-Sora 2.0をオープンソース化、コスト削減と高速化を実現

潞晨科技が発表したOpen-Sora 2.0は、わずか20万ドルのトレーニングコストと110億パラメータの強力な性能で、OpenAI Soraなどの業界のベンチマークに挑戦しています。このモデルは複数の評価で優れたパフォーマンスを示しており、特にVBenchではOpenAI Soraとの性能差が0.69％に縮小されました。Open-Sora 2.0のオープンソース特性と効率的なトレーニング戦略は、動画生成分野に新たな機会をもたらし、高品質な動画生成のハードルを下げ、オープンソースエコシステムの発展を促進しています。

【AiBase要約:】
💰 低コスト：Open-Sora 2.0はトレーニングコストがわずか20万ドルで、業界標準を大幅に下回っています。
📈 高性能：110億のパラメータを備え、OpenAI Soraに匹敵する性能で、VBench評価で優れたパフォーマンスを示しています。
🌐 オープンソース共有：トレーニングコード全体をオープンソース化し、動画生成技術の共同開発を推進しています。
詳細リンク:https://github.com/hpcaitech/Open-Sora

7、アリババ通義、新しい動画生成・編集モデルVACEを発表　モーション軌跡の制御、主体の置換などに対応

アリババ通義Wanチームは、新しいVACEモデルを発表しました。これは、動画制作のハードルを下げ、制作効率を向上させることを目的としています。VACEの条件付き動画生成機能により、ユーザーはテキストの説明で迅速にアイデアを実現でき、まるで夢のような撮影チームを持っているかのような感覚です。さらに、VACEは物体モーション軌跡の制御、動画主体の置換、スタイル変換、動画画面のインテリジェントな拡張など、様々な強力な編集機能を備えています。古い動画であっても、VACEはレンダリング技術で輝きを取り戻すことができ、動画制作の可能性を大幅に広げます。

【AiBase要約:】
🎬 VACEモデルはテキストの説明から動画を迅速に生成し、制作効率を向上させます。
🔄 物体モーション軌跡の制御と動画主体の置換に対応し、柔軟性に優れています。
🖼️ 動画画面のインテリジェントな拡張とスタイル変換機能を備え、表現豊かな制作を可能にします。
詳細リンク:https://arxiv.org/pdf/2503.07598

8、理想汽車、AIアシスタント「理想同学」ウェブ版を発表：DeepSeek R1フルバージョンを搭載

理想汽車は、人工知能アシスタント「理想同学」のウェブ版を正式に発表し、インテリジェントサービス分野における更なる拡大を示しました。このアシスタントはDeepSeek R1V3671Bフルバージョンを搭載し、強力なQ&A機能とクロスシーンサービスの協調を提供します。ユーザーは異なるモデル間で切り替えが可能で、長文入力と画像Q&A機能に対応し、インタラクションエクスペリエンスを向上させています。理想同学の新しいイメージインタラクション機能により、ユーザーとのインタラクションがより直感的になり、理想汽車は今後、変化するユーザーニーズを満たすために、より多くの革新的なサービスモデルを探求していきます。

【AiBase要約:】
💻 理想同学ウェブ版が公開され、ユーザーはパソコンで利用でき、インテリジェントサービスエコシステムを拡大します。
🔍 DeepSeek R1V3671Bフルバージョンを搭載し、モデルの切り替えと深層思考機能に対応し、Q&A能力を向上させています。
🖼️ 千文字の長文入力と画像Q&Aに対応し、より強力なユーザーインタラクションエクスペリエンスを提供します。

9、Google Gemini 2.0 Flash、ネイティブマルチモーダル画像生成機能を提供：複数ラウンドの対話型リアルタイム編集に対応

Googleが最近発表したGemini 2.0 Flashは、AI画像生成分野にネイティブ画像生成技術を導入し、生成効率と精度を大幅に向上させました。従来の大規模言語モデルに依存する方法とは異なり、Gemini 2.0 Flashは画像生成とテキスト理解を直接統合することで、よりスムーズな制作プロセスを実現しています。複数ラウンドの対話型編集機能と強力な知識ベースにより、ユーザーは生成された画像をリアルタイムで調整でき、個人と企業の創造的なニーズを十分に満たすことができます。

【AiBase要約:】
🎨 ネイティブ画像生成：Gemini 2.0 Flashは画像生成機能を直接統合し、情報の歪みを回避し、生成効率と精度を向上させています。
🖌️ リアルタイム編集：複数ラウンドの対話型編集に対応しており、ユーザーは自然言語で修正意見を提示でき、AIはすぐに対応して画像を調整します。
📈 企業向けアプリケーション：マーケティングチームと開発者に強力なツールを提供し、コンテンツを迅速に生成し、設計コストを削減し、作業効率を向上させます。

10、Remade AI、8種類のWan2.1エフェクトLoRAをオープンソース化、AI動画制作の新たなブームを巻き起こす

Remade AIはHugging Faceプラットフォームで、Wan2.1モデルベースの8種類のオープンソースエフェクトLoRAを発表し、テクノロジー業界の注目を集めています。これらのエフェクトモジュールは、静止画を動画に変換できるだけでなく、AI動画生成に新たな創造の可能性をもたらします。ソーシャルメディアを通じて、ユーザーはこれらのエフェクトの効果に驚嘆し、AI技術の民主化を促進し、動画制作の普及を加速すると考えています。

【AiBase要約:】
🎨 8種類の新しいエフェクトLoRAには、圧縮、ケーキ化、膨張などが含まれ、AI動画制作の可能性を広げます。
💻 Wan2.1モデルは、その効率性と多機能性により、動画生成分野のトップクラスの選択肢となっています。
🌍 Remade AIは世界中のユーザーにカスタムニーズの提案を呼びかけ、より多くのエフェクトモジュールを継続的にオープンソース化することを約束しています。