【AI日報】へようこそ!ここは、AIの世界を探求するための毎日のガイドです。毎日、AI分野のホットなニュースをお届けし、開発者を重視し、技術トレンドの把握や革新的なAI製品の応用に関する理解を深めるお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、通義万相オープンソース動画生成モデルWan2.1:8.2GBのVRAMで480P動画生成が可能
通義万相が最新リリースしたWan2.1モデルは、高画質動画生成に特化しており、その優れた性能と革新的な技術により、クリエイターや企業ユーザーにとって最適なツールとなっています。このモデルはVbench評価で86.22%の高得点を獲得し、他の動画生成モデルを上回り、顕著な性能優位性を示しました。Wan2.1は、効率的な3D因果VAEモジュールとDiffusion Transformerアーキテクチャにより、動画生成と推論の効率を最適化し、ユーザーに柔軟な開発と展開の選択肢を提供します。
【AiBase要約:】
🚀 Wan2.1モデルはVbench評価で86.22%の成績で1位を獲得し、他の動画生成モデルを凌駕しました。
💡 3D因果VAEモジュールを採用し、256倍の損失のない動画潜在空間圧縮を実現し、動画の再構築速度を向上させました。
🔧 主要なフレームワークを複数サポートしており、開発者はGradioで簡単に体験でき、推論と展開のプロセスを簡素化できます。
詳細リンク:https://github.com/Wan-Video
2、360智脳がTiny-R1-32Bを発表:パラメータ5%でDeepseek-R1のフル性能に迫る
360智脳チームと北京大学が共同で開発したTiny-R1-32B-Previewモデルは、パラメータ数がわずか5%であるにもかかわらず、Deepseek-R1の性能に匹敵する成果を達成し、小型モデルの高効率推論における可能性を示しました。このモデルは、数学、プログラミング、科学分野の評価においてすべて優れた成績を収め、特にAIME2024評価では78.1点を獲得し、複数のタスクにおけるバランスの取れた最適化能力を示しました。開発チームは、完全なモデルリソースを公開し、技術の普及を促進することを約束しています。
【AiBase要約:】
📊 Tiny-R1-32B-Previewモデルは、パラメータ数が5%でDeepseek-R1の性能に匹敵し、小型モデルの高効率推論の可能性を示しました。
💻 数学、プログラミング、科学分野において、このモデルは複数の評価で優れた成績を収め、現在の最先端のオープンソース70Bモデルを上回りました。
🔗 開発チームは、完全なモデルリポジトリを公開し、技術の普及を促進することを約束しており、モデルをHugging Faceプラットフォームにアップロード済みです。
詳細リンク:https://huggingface.co/qihoo360/TinyR1-32B-Preview
3、DeepSeekオープンソースウィーク3日目:DeepGEMMを発表、FP8 GEMMライブラリがAIの学習と推論を支援
オープンソースウィーク3日目に、中国の人工知能企業DeepSeekは、FP8汎用行列乗算をサポートするオープンソースライブラリDeepGEMMを発表しました。これは、密なモデルと混合専門家モデルをサポートすることを目的としています。このライブラリは、NVIDIA Hopper GPU上で1350 TFLOPSを超えるFP8計算性能を実現し、コアコードはわずか300行で、非常に高い効率性と簡潔性を示しています。DeepGEMMの発表は、DeepSeekがAI技術の透明化とコミュニティ協力を推進する上での更なる取り組みを示しており、将来的にはAIの学習と推論に大きな改善をもたらすと期待されています。
【AiBase要約:】
🚀 DeepGEMMは、密なモデルと混合専門家モデルの行列演算用に設計されたオープンソースライブラリで、FP8汎用行列乗算をサポートしています。
💻 NVIDIA Hopper GPU上で、DeepGEMMは最大1350 TFLOPSを超えるFP8計算性能を実現し、卓越した効率性を示しています。
🌐 このライブラリの発表は、DeepSeekモデルの性能向上だけでなく、世界中の開発者に効率的で使いやすい行列演算ツールを提供します。
詳細リンク:https://github.com/deepseek-ai/DeepGEMM
4、百度のノーコード開発ツール「秒哒」がユーザー招待テストを開始
百度は2月25日、ノーコード開発ツール「秒哒」のユーザー招待テストを開始したと発表しました。ユーザーは招待メールを通じて秒哒のホームページにアクセスし、H5ページ開発やウェブサイト開発などの機能を体験できます。このツールは2024年11月12日の百度世界2024大会で発表され、ノーコードプログラミング、マルチエージェント連携、マルチツール呼び出しなどの機能を備えています。テストを申請した企業ユーザー数は2万人を突破しており、百度は今後、より多くの機能を公開する予定です。百度スマートクラウドの公式ウェブサイトでテスト参加の順番待ちを申請できます。
【AiBase要約:】
🚀 ユーザーは招待メールから秒哒にアクセスし、様々な開発機能を体験できます。
📈 テストを申請した企業ユーザー数は2万人を突破し、市場の強い需要を示しています。
🔧 秒哒はノーコードプログラミングやマルチエージェント連携などのコア機能を備え、開発効率を向上させます。
詳細リンク:https://digital.cloud.baidu.com/mF/commonLandingPage/CTA/889605a4883041b98b16538350ea33f8?pushId=bBDCrkwdYZ6bP8TE44JbCM1
5、Googleが超低価格AIモデルGemini 2.0 Flash-Liteを正式リリース
Googleは最近、Gemini 2.0 Flash-Liteを発表しました。これは、同社のAIモデルシリーズの中で最もコストパフォーマンスに優れた選択肢であり、予算の限られた開発者にとって高コスパなソリューションを提供することを目指しています。このモデルは大規模なテキスト出力タスクの処理において優れた性能を発揮し、価格戦略も非常に競争力があり、入力と出力トークンの料金は市場の同類製品をはるかに下回っています。高度な機能はサポートしていませんが、テキスト生成分野における効率性と実用性から、スタートアップ企業や小規模チームにとって理想的な選択肢となっています。
【AiBase要約:】
💰 Gemini 2.0 Flash-Liteの入力トークンの価格は100万トークンあたり0.075ドル、出力トークンは100万トークンあたり0.30ドルと、非常に高コスパです。
📈 このモデルはGemini 1.5 Flashよりも性能が優れており、100万トークンのコンテキストウィンドウを処理でき、高頻度タスクに適しています。
📝 画像や音声出力はサポートしていませんが、Gemini 2.0 Flash-Liteはテキスト生成に特化しており、約4万枚の写真に1行のキャプションを生成するのに1ドル未満のコストで済みます。
6、幻方量化がDeepSeek-R2モデルの早期リリースに関する報道に対応:公式発表を待つ
最近、幻方量化はDeepSeekの次世代AIモデルR2の早期リリースに関する報道に対し、公式発表を待つよう対応しました。幻方量化は2023年7月に深度求索AI社を設立し、今年1月にDeepSeek-R1モデルを発表しました。ロイターの報道によると、DeepSeekはR2モデルのリリースを5月に前倒しする計画で、新しいモデルはコード生成と多言語推論能力の向上が期待されています。
【AiBase要約:】
🔍 幻方量化は、DeepSeek-R2モデルの早期リリースに関する報道に対し、公式発表を待つよう対応しました。
🚀 DeepSeekは2023年7月に深度求索AI社を設立し、1月にDeepSeek-R1モデルを成功裏に発表しました。
🌐 次世代DeepSeek-R2モデルは、コード生成と多言語推論能力の向上が期待されています。
7、Microsoftが新しいマルチモーダルAIエージェント「Magma」をオープンソース化:自動注文と行動予測が可能に
Microsoftは最近、公式ウェブサイトで「Magma」というマルチモーダルAIエージェントの基本モデルをオープンソース化しました。Magmaはデジタルと物理の世界を跨ぎ、画像、動画、テキストなど様々なデータタイプを処理でき、心理予測機能も備えており、人物や物体の意図をより正確に理解できます。このAIの応用範囲は非常に広く、ユーザーが自動注文や天気予報の確認などの日常的な操作を行うのに役立つだけでなく、実体ロボットを制御し、リアルタイムの支援を提供することもできます。Magmaの登場は、インテリジェントアシスタントとロボット技術の大きな進歩を示しており、AI駆動のアシスタントやロボットに特に適しており、学習能力と実用性を向上させます。
【AiBase要約:】
🌐 クロスモーダル機能:Magmaは画像、動画、テキストなど様々なデータタイプを処理でき、インテリジェントアシスタントの機能を向上させます。
🤖 インテリジェントなアプリケーション:ユーザーはMagmaを使用して自動注文、天気予報の確認、実体ロボットの制御を行うことができます。
📚 学習適応性:Magmaはロボットが新しいタスクを学習するのを支援し、仮想アシスタントに操作ガイドを生成することで、実用性を高めます。
詳細リンク:https://microsoft.github.io/Magma/
8、DeepSeekとClaudeとの競争激化!OpenAIの高度なリサーチ機能がすべての有料ChatGPTユーザーに開放
OpenAIは最近、高度なリサーチ機能を拡張し、すべてのChatGPT Plus、Team、Education、Enterpriseユーザーに開放しました。この機能は、ChatGPT以来最も革新的なAIアシスタントと考えられており、複雑なリサーチタスクを実行し、専門的なレポートを生成できます。同時に、中国のDeepSeekは、新しいモデルをオープンソース化することでOpenAIのビジネスモデルに挑戦し、市場競争の激化を促しています。この技術は効率性の向上に優れていますが、人間の専門家との協業という課題にも直面しており、企業は情報処理ワークフローを見直して、この技術をより効果的に活用する必要があります。
【AiBase要約:】
💻 OpenAIは高度なリサーチ機能を複数のユーザーレベルに拡張し、AIアシスタントのリサーチ能力を強化しました。
🔍 中国のDeepSeekは、新しいモデルをオープンソース化することで、OpenAIのサブスクリプションビジネスモデルに挑戦しています。
📈 高度なリサーチは、効率性と限界性のバランスを取りながら、新しいビジネスチャンスを生み出し、企業の情報処理プロセスの再構築を促しています。
9、PhotoDoodle AIは、いくつかのプロンプトだけで写真を幻想的なアート作品に変換
バイトダンスと中国・シンガポール大学の研究チームが共同で開発したPhotoDoodleは、Flux.1モデルを使用して画像制作を再定義します。このシステムは、少数のサンプルからアートスタイルを学習し、編集指示を正確に実行することで、創造的な表現の可能性を大幅に向上させます。コア技術には位置エンコーディングクローニングが含まれており、新しい要素が元の画像に自然に溶け込むようにします。同時に、研究チームはより効率的な単一画像トレーニング方法を模索しています。
【AiBase要約:】
🖌️ PhotoDoodleはFlux.1モデルに基づいており、少数のサンプルからアートスタイルを学習し、編集指示を実行できます。
✨ 位置エンコーディングクローニング技術により、AIは各ピクセルの位置を記憶し、新しい要素が背景に自然に溶け込むようにします。
📊 研究チームは、6種類のアートスタイルを含むデータセットを公開し、より効率的な単一画像トレーニング方法を模索しています。
詳細リンク:https://github.com/showlab/PhotoDoodle
10、OpenAIがChatGPT高度音声チャットモードを無料で公開
OpenAIは2月26日、Xプラットフォームで、ChatGPTの高度音声モードをユーザーに無料で公開すると発表しました。このモードはGPT-4o miniモデルに基づいており、計算効率の最適化により、性能は完全版GPT-4oに近づいています。現在、macOSとWindows 10、11のChatGPTデスクトップアプリケーションでこのモードがサポートされており、ユーザーは5種類の音声を選択し、カスタムプロンプトと会話内容の確認機能を利用できます。この取り組みは、ユーザーの音声インタラクション体験を向上させ、人工知能技術の普及を促進します。
【AiBase要約:】
🎤 高度音声モードはGPT-4o miniモデルに基づいており、性能は完全版GPT-4oに近いです。