【AI日報】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットなニュースをお届けし、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用に関する理解を深めるお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、アリババの通義万相首尾フレーム生成ビデオモデルWan2.1-FLF2V-14Bがオープンソース化
アリババの通義ラボが、Hugging FaceとGitHubでWan2.1-FLF2V-14Bモデルをオープンソース化しました。これは、AIビデオ生成技術の大きな進歩を示しています。このモデルは高解像度ビデオの生成をサポートし、ユーザーが提供した最初のフレームと最後のフレームを使用してスムーズなアニメーション遷移を実現します。テキストからビデオへの変換、ビデオ編集など、さまざまな機能を備えています。オープンソース化により技術的なハードルが下がり、開発者の注目を集め、AIビデオ制作の幅広い応用を促進しています。
【AiBase要約:】
📸 最初のフレームと最後のフレームを制御することで、ユーザーは2枚の画像だけでスムーズな5秒間の720p高解像度ビデオを生成できます。
🚀 このモデルはマルチモーダルをサポートしており、ビデオ生成に加えて、テキストで誘導された画像や音声の生成も可能で、創作の幅が広がります。
🌐 オープンソースエコシステムにより開発者の参加が促進され、アリババが提供する無料体験活動は、コミュニティからのフィードバックと最適化をさらに促進します。
詳細リンク:https://github.com/Wan-Video/Wan2.1
2、バイトダンスの豆包オープンソースSeedインテリジェント体モデルUI-TARS-1.5
バイトダンスのUI-TARS-1.5モデルは、マルチモーダルインテリジェント体分野、特にGUI操作とゲーム推論において顕著な進歩を遂げました。このモデルは強化学習によって高次推論能力が強化され、複雑なタスクにおける優れたパフォーマンスを示しています。オープンソース化されたUI-TARS-1.5は、開発者に強力なツールを提供し、マルチモーダルインテリジェント体技術の発展を促進します。将来的には、人間の能力に近づけるための最適化が続けられます。
【AiBase要約:】
🖥️ UI-TARS-1.5は7つのGUI評価基準でSOTA(最先端)のパフォーマンスを達成し、長時間の推論と対話能力を示しました。
🎮 ゲームタスクにおいて、UI-TARS-1.5は安定した推論時の拡張性を示し、Minecraftで「思考-行動」メカニズムの有効性を検証しました。
📈 このモデルは視覚的知覚の強化とSystem2推論メカニズムにより、正確なGUI操作を実現し、開発のハードルを下げています。
詳細リンク:https://github.com/bytedance/UI-TARS - Website:https://seed-tars.com/ - Arxiv:https://arxiv.org/abs/2501.12326
3、OpenAIが実用的なドキュメント「インテリジェント体構築実践ガイド」を発表(ドキュメントリソース付き)
OpenAIは最近、「インテリジェント体構築実践ガイド」を発表し、製品およびエンジニアリングチームに、インテリジェントシステムを構築するために必要な知識とベストプラクティスを提供しました。このガイドは、インテリジェント体の定義、設計、安全な展開について詳細に説明し、インテリジェント体と従来のソフトウェアの根本的な違いを強調しています。複雑な意思決定や非構造化データの処理を行うシナリオに特に適しています。
【AiBase要約:】
🧠 インテリジェント体は高度な自律性を備えており、ユーザーに代わって複雑なワークフローを実行できます。これは、従来のソフトウェアの自動化機能とは異なります。
🔧 インテリジェント体の構築には、モデル、ツール、指示などの主要な構成要素を考慮して、インテリジェント体の有効性と信頼性を確保する必要があります。
🔒 セキュリティガードレールは、データプライバシーと評判リスクを管理する上で重要であり、開発者は潜在的なリスクに対処するために多層防御対策を設定する必要があります。
詳細リンク:https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
4、テンセントの混元InstantCharacterがオープンソース化、高いキャラクターの一貫性、カスタマイズ可能なポーズ、スタイル、シーン
テンセントの混元チームは、InstantCharacterフレームワークを正式にオープンソース化しました。これは拡散トランスフォーマーに基づくキャラクターパーソナライゼーションツールであり、高一貫性と柔軟性を備え、単一の画像から多様なキャラクターのカスタマイズを生成でき、さまざまなアートスタイルに適用できます。このフレームワークのオープンソース化により、キャラクターカスタマイズの技術的なハードルが下がり、世界中の開発者の創造性を刺激します。同時に、著作権と倫理の問題にも注意する必要があります。
【AiBase要約:】
🖼️ 単一画像駆動:キャラクター画像とテキストプロンプト1つだけで、多様なポーズ、スタイル、シーンを生成できます。
🔄 高い一貫性:高度なDiTアーキテクチャにより、生成された画像のキャラクター特性における高い一貫性を確保します。
🌈 スタイルの多様性:写実的、アニメ、漫画など、さまざまなスタイルをサポートし、さまざまな創作ニーズに対応します。
詳細リンク:https://huggingface.co/spaces/InstantX/InstantCharacter
5、ビデオ拡散革新技術FramePack:わずか6GBのVRAMで、1.5秒/フレーム
FramePackは画期的なビデオ拡散技術であり、その低いVRAM要件と効率的な生成能力により、ビデオ生成分野のゲームチェンジャーとなっています。わずか6GBのVRAMで、FramePackは全フレームレートで数千フレームのビデオ生成を実現し、技術の応用におけるハードルを大幅に下げます。さらに、生成速度は最適化後1.5秒/フレームに達し、コンテンツ制作やリアルタイムアプリケーションに新たな可能性をもたらします。
【AiBase要約:】
💻 FramePackはわずか6GBのVRAMで、30fpsで数千フレームのビデオを生成でき、技術的なハードルを下げます。
⚡ 生成速度は驚異的で、最適化されていない状態では2.5秒/フレーム、最適化後は1.5秒/フレームに達し、さまざまなアプリケーションシナリオに適しています。
🌍 この技術は、コンテンツ制作、ゲーム開発、エッジコンピューティングなどの分野に幅広い応用分野を提供し、ビデオ生成技術の「大衆化」を促進します。
詳細リンク:https://lllyasviel.github.io/frame_pack_gitpage/
6、Googleが新しいGemini 2.5 Flashを発表:知性と速度を兼ね備えたAIアシスタント
Googleが最近発表したGemini 2.5 Flashバージョンは、推論能力が大幅に向上しており、特にフルミックス推論モデルが導入されたことで、開発者はニーズに合わせて思考プロセスのコストと遅延を柔軟に制御できます。思考予算を設定することで、開発者は品質と効率のバランスを取ることができます。このバージョンは複雑なタスクの処理、特に複数ステップの推論シナリオにおいて優れたパフォーマンスと柔軟性を示しています。
【AiBase要約:】
💡 Gemini 2.5 Flashはフルミックス推論モデルを導入し、開発者は思考機能の有効化を選択して、推論プロセスを柔軟に制御できます。
⚙️ 開発者は思考予算を設定して、品質、コスト、遅延のバランスを取り、さまざまなタスクのニーズに対応できます。
📊 LMArenaの「困難なプロンプト」テストで、Gemini 2.5 Flashは2.5 Proに次ぐ優れたパフォーマンスを示し、その強力な推論能力を証明しました。
7、OpenAIがFlex処理APIを発表、低コストAIアプリケーションを支援
OpenAIは最近、激しいAI市場競争に対応するため、Flex処理APIを発表しました。このAPIにより、ユーザーは応答速度と可用性を犠牲にするものの、より低コストでAIモデルを使用できます。Flex処理は、優先度の低い非生産的なタスクに特に適しており、コストを大幅に削減します。特に、現在のAIサービスの価格上昇を背景として、経済的な選択肢を提供します。
【AiBase要約:】
💰 Flex処理APIにより、ユーザーはより低コストでAIモデルを使用でき、予算の限られた開発者にとって適しています。
⚡ Flex処理を使用する場合、o3モデルの入力トークン価格は100万トークンあたり5ドル、出力トークン価格は100万トークンあたり20ドルに削減されます。
🔒 合理的な使用を確保するために、開発者はo3モデルにアクセスするために認証プロセスを経る必要があり、プラットフォームの安全性を維持します。
8、Midjourney画像エディターが大幅更新:新しいUI、レイヤー機能、インテリジェントツールが登場
Midjourneyは2025年4月17日、画像エディターの大幅なアップデートを発表し、ユーザーエクスペリエンスを最適化し、新しいユーザーインターフェース、レイヤー機能、インテリジェント選択ツール、アップグレードされたコンテンツ審査メカニズムなど、多くの革新的な機能を導入しました。これらの改善は、編集効率と柔軟性を向上させるだけでなく、プラットフォームのセキュリティも強化し、AIクリエイティブツール分野におけるMidjourneyのリーダーシップをさらに強化します。
【AiBase要約:】
🖌️ 新しいユーザーインターフェースにより、操作効率と創作体験が向上し、プロのデザイナーと初心者ユーザーの両方に適しています。
📂 レイヤー機能が導入され、ユーザーは画像をレイヤーで管理でき、創作の柔軟性と精度が向上します。
🔍 新しいインテリジェント選択ツールは、AIアルゴリズムを使用して複雑な編集操作を簡素化し、編集効率を向上させます。
9、Microsoftが新型言語モデルBitNet b1.58 2B4Tを発表、メモリ使用量はわずか0.4GB
Microsoftの研究チームが発表したオープンソース言語モデルBitNet b1.58 2B4Tは、20億のパラメーターとわずか0.4GBのメモリ使用量で注目を集めています。このモデルは革新的な1.58ビット低精度アーキテクチャを採用し、計算リソースの需要を大幅に削減し、同等の製品と比較して優れたパフォーマンスを示しています。事前トレーニングと微調整の後、BitNetは複数のベンチマークテストで優れたパフォーマンスを示し、消費電力とデコード遅延にも明確な利点があります。
【AiBase要約:】
🌟 このモデルは20億のパラメーターを持ち、メモリ使用量はわずか0.4GBで、同等の製品よりも大幅に低くなっています。
🔧 革新的なアーキテクチャを採用し、従来の16ビット数値を放棄し、1.58ビット低精度で重みを格納します。
🚀 Hugging Faceで既に公開されており、Microsoftはモデルの機能とパフォーマンスのさらなる最適化を計画しています。
詳細リンク:https://arxiv.org/html/2504.12285v1
10、Genspark Super Agentがファイル変換ツールを追加、400種類以上のファイル形式に対応
Genspark Super Agentは新しいファイル変換ツールを発表しました。これは400種類以上のファイル形式の相互変換をサポートし、ユーザーの業務効率を大幅に向上させます。このツールは操作が簡単で、ユーザーはファイルをアップロードしてターゲット形式を選択するだけで、迅速に変換を完了できます。そのインテリジェントな最適化とシームレスな統合により、このツールは個人ユーザーと企業ユーザーの日常業務に不可欠なアシスタントとなっています。
【AiBase要約:】
📁 400種類以上のファイル形式の相互変換をサポートし、多様な業務ニーズに対応します。
⚡ 変換プロセスはインテリジェントに最適化され、情報の損失が少なく、ファイル編集の柔軟性が向上します。
💡 毎日200クレジットの無料利用枠を提供し、ユーザーがAI技術を使用するハードルを下げます。
詳細リンク:https://page.genspark.site/page/toolu_015jDXJp3H2Whpw4V2vS71sH/genspark_file_converter_orange_n_icon.html
11、智譜Zファンドが3億元を拠出しグローバルオープンソースコミュニティを支援、北京市が追加で2億元を投資