AI日報：アリババがドキュメントモデルDocOwl 1.5をオープンソース化；Midjourney画像エディタの新機能が来週リリース；Viggle AIが口パク機能を発表

【AI日報】へようこそ！ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、表とグラフをすべて制覇！アリババ達磨院がOCR不要でドキュメントを効率的に「理解」するDocOwl1.5をオープンソース化！

アリババの達磨院と中国人民大学は、mPLUG-DocOwl1.5ドキュメント処理モデルを共同でオープンソース化しました。OCRが不要でドキュメントの内容を理解でき、複数のビジュアルドキュメント理解ベンチマークテストでトップクラスの性能を示しています。このモデルは構造情報の重要性を強調し、「統一構造学習」を提案してMLLMの性能向上を目指しています。

【AiBase要約:】
🔍 mPLUG-DocOwl1.5はOCRなしでドキュメントの内容を理解し、ビジュアルドキュメント理解ベンチマークテストでトップクラスの性能を示しています。
📊 ドキュメント理解における構造情報の重要性を強調し、「統一構造学習」を提案してMLLMの性能を向上させています。
🔗 オープンソースコード、モデル、データセットを提供し、複数のダウンストリームタスクで最先端の性能を実現しています。
詳細リンク:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2、Midjourney画像エディターの新機能が来週登場

Midjourneyの創設者David Holzは、アップロードされた画像の深層情報を利用して新しい画像を生成する全く新しい画像エディターを発表しました。元の構図と内容を維持しながら、テクスチャ、色、ディテールを完全に変更します。この革新により、ユーザーの創作の自由度が向上し、デザイナーやアーティストに強力なツールを提供します。MidjourneyはAI技術によって画像生成の品質を継続的に最適化しており、最新のv6.1モデルでは画像の鮮明さと正確さがさらに向上しています。新しい画像エディターの追加は、クリエイティブ分野におけるAIの応用範囲を広げ、Midjourneyにおける画像編集ツールの大きな進歩を示しています。

【AiBase要約:】
✨ アップロードされた画像の深層情報を利用して新しい画像を生成し、元の構図と内容を維持しながら、テクスチャ、色、ディテールを完全に変更します。
🎨 MidjourneyはAI技術によって画像生成の品質向上に努めており、最新のv6.1モデルでは画像の鮮明さと正確さがさらに向上しています。
💡 新しいエディターの追加は、クリエイティブ分野におけるAIの応用範囲を広げ、デザイナーやアーティストにより柔軟な画像操作と修正方法を提供します。

3、Viggle AIが新機能を発表　音声でキャラクターに話させることが可能に

Viggle AIは、ユーザーが音声の録音でキャラクターに話させ、口パクを同期させることができるエキサイティングな新機能を発表しました。この革新的な技術により、ユーザーはキャラクターの表現方法を完全に制御できるようになり、歌を歌わせたり、踊らせたりすることも簡単にできます。Viggleアプリケーションは、その革新性でソーシャルメディアで広く注目を集めており、高度なJST-1ビデオ3D基礎モデルを利用することで、ユーザーは簡単にビデオコンテンツを作成および混合することができます。

【AiBase要約:】
🎤 キャラクターに話させる機能：ユーザーは音声の録音でキャラクターに話させ、口パクを同期させることができます。
🎭 キャラクターの入れ替え機能：ユーザーは任意のキャラクターをビデオシーンに配置し、個性的な没入型体験を作り出すことができます。
🔄 静止画の動画化：ユーザーは静止画を動画に変換し、ビデオの面白さとインタラクティブ性を高めることができます。
詳細リンク:https://viggle.ai/home

4、最先端のAIモデルでさえ、複雑な旅行計画に対処するのが困難、OpenAI o1-previewも苦戦

最新の研究によると、OpenAIの最新のo1-previewなどの高度なAI言語モデルでさえ、複雑な計画タスクでは課題に直面しています。研究では、モデルはルールと条件を統合する点でパフォーマンスが低く、計画時間が長くなるにつれて問題への関心が薄れることが分かりました。一部のモデルはBlocksWorldでは良好なパフォーマンスを示していますが、より複雑なTravelPlannerタスクではパフォーマンスが低下しています。

【AiBase要約:】
🌍 OpenAIのo1-previewなどのAIモデルは、複雑な旅行計画ではパフォーマンスが低く、GPT-4oの成功率はわずか7.8％です。
📉 多くのモデルはBlocksWorldでは良好なパフォーマンスを示していますが、TravelPlannerでは理想的な結果を得ることが困難です。
🧠 ルールの統合が不十分であり、時間とともに焦点がぼやけるという問題があります。
詳細リンク:https://github.com/hsaest/Agent-Planning-Analysis

5、オープンソースツールVulnhuntrはPythonのゼロデイ脆弱性を発見、Claude AIを巧みに利用

Protect AI社が発表したVulnhuntrツールは、Claude AIを利用して開発者がPythonコード内のゼロデイ脆弱性を発見するのに役立ちます。このツールは従来の静的分析とは異なり、ユーザー入力からサーバー出力までの完全な呼び出しチェーンを追跡することで、脆弱性の検出精度を高めます。Vulnhuntrはすでに複数の主要なオープンソースプロジェクトでゼロデイ脆弱性を発見しており、まもなくGitHubで開発者が利用できるようになります。

【AiBase要約:】
🌟 Vulnhuntrは、Claude AIを利用してPythonのゼロデイ脆弱性を発見するオープンソースツールです。
🛠️ このツールは静的分析とは異なり、完全な呼び出しチェーンを追跡します。
🚀 Vulnhuntrはすでに複数の主要なオープンソースプロジェクトでゼロデイ脆弱性を発見しており、まもなくGitHubで公開されます。

6、バイトダンス、「インターンが巨大言語モデルのトレーニングを妨害」への対応を発表：正式な商業プロジェクトには影響なし

バイトダンスは最近、インターンが巨大言語モデルのトレーニングを妨害したという噂について公式に回答し、インターンが研究プロジェクトのモデルトレーニングを悪意を持って妨害したことを認めましたが、正式な商業プロジェクトやオンラインサービスには影響がないと述べました。同社は、噂は大きく誇張されていると指摘し、インターンを解雇し、関係機関に通報したと述べています。この事件はセキュリティ管理の問題を露呈しており、同社はAI技術への投資を大幅に増やす計画です。

【AiBase要約:】
🔍 インターンが巨大言語モデルのトレーニングを悪意を持って妨害しましたが、商業プロジェクトやオンラインサービスには影響がありませんでした。
🔒 同社は噂が誇張されていることを確認し、インターンを解雇し、関係機関に通報しました。
💡 この事件はセキュリティ管理の問題を露呈しており、同社はAI技術への投資を大幅に増やす計画です。

7、Metaの最新技術SPIRIT-LM：話す、書く、そしてあなたの感情を理解する、このAI言語モデルはちょっとすごい！

SPIRIT-LMは、テキストと音声の自由な混合、感情の理解と表現を可能にする画期的なマルチモーダル基礎言語モデルです。テキストモデルのセマンティック能力と音声モデルの表現能力を組み合わせることで、クロスモーダルタスクを実行し、少量のサンプルだけで新しいタスクを学習できます。SPIRIT-LM-EXPRESSIVEは、感情表現において基本版を上回り、マルチモーダル言語理解と生成の新しい可能性を切り開いています。

【AiBase要約:】
⚙️ SPIRIT-LMは、テキストと音声を混合し、感情を理解できるマルチモーダル基礎言語モデルです。
🔑 SPIRIT-LMは、テキストモデルのセマンティック能力と音声モデルの表現能力を組み合わせることで、クロスモーダルタスクを実行します。
💡 SPIRIT-LM-EXPRESSIVEは、感情表現において基本版を上回り、マルチモーダル言語理解と生成の新しい可能性を切り開いています。
詳細リンク:https://arxiv.org/pdf/2402.05755

8、Stable Diffusionを覆す！智源がEmu3を発表、画像、テキスト、ビデオをすべて制覇！

Emu3チームは、従来の拡散モデルと組み合わせモデルのアーキテクチャを覆す、全く新しいマルチモーダルモデルEmu3を発表しました。生成と知覚タスクにおいて最先端の性能を達成しています。このモデルは、次のトークンの予測に基づいてトレーニングされ、マルチモーダルタスクの統一を実現し、特定のタスクモデルやフラッグシップモデルさえも凌駕しています。Emu3の成功は、マルチモーダルモデルの将来の発展の方向性を示すとともに、AGIの実現への新たな希望をもたらしています。

【AiBase要約:】
🚀 Emu3は、次のトークンの予測に基づいてトレーニングされ、従来のモデルアーキテクチャを覆し、最先端の性能を達成しています。
💡 Emu3はマルチモーダルタスクの統一を実現し、拡散または組み合わせアーキテクチャに依存することなく、特定のタスクモデルやフラッグシップモデルを凌駕しています。
🔗 Emu3チームは重要な技術とモデルをオープンソース化し、マルチモーダルインテリジェンス分野のさらなる研究を支援しています。
詳細リンク:https://github.com/baaivision/Emu3

9、Perplexity AI、90億ドルの評価額を目指して

Perplexity AIは、新たな資金調達ラウンドで評価額を30億ドルから90億ドルに引き上げることを発表しました。同社は剽窃の告発に直面していますが、これを強く否定しています。激しい市場競争の中で、技術とサービスレベルの向上に努めています。

【AiBase要約:】
🌟 Perplexity AIは評価額を90億ドルに引き上げる計画で、多くの投資家の注目を集めています。
💰 年初以来3回の資金調達を行い、急速に成長しています。
📰 剽窃の告発に直面していますが、同社はこれを強く否定し、知的財産権を保護しています。

10、元OpenAI CTOが新たなAI企業を設立、1億ドルの資金調達目標

Mira Muratiは1億ドルを超えるベンチャーキャピタルの資金調達を進めており、新しいAIスタートアップ企業を設立する準備をしています。彼女は個人的な探求を行うためにOpenAIを退社し、OpenAIは彼女の退社後、記録的な66億ドルのベンチャーキャピタルを調達しました。Muratiの新会社が今後どのように発展していくのか期待されます。

【AiBase要約:】
✨ Mira Muratiは1億ドルを超えるベンチャーキャピタルの資金調達を進めており、新しいAI企業を設立しています。
🚀 Muratiは個人的な探求を行うためにOpenAIを退社しましたが、具体的な計画は明らかにしていません。
📈 OpenAIはMuratiの退社後、記録的な66億ドルのベンチャーキャピタルを調達しました。

11、アップルのAI開発は2年遅れ、今後2年間で全デバイスにApple Intelligence導入予定

今年のWWDCカンファレンスでアップルはAIの新機能を発表しましたが、アナリストはアップルのAI技術開発が競合他社に比べて約2年遅れていると指摘しています。アップルは今後2年間で、すべての画面付きデバイスに「Apple Intelligence」機能を導入する計画です。出遅れはしていますが、巻き返しに自信を持っているようです。

【AiBase要約:】
📅 アップルのAI開発は競合他社に比べて約2年遅れており、業界標準に追いつく努力をしています。
💡 アップルは今後2年以内にすべての画面付きデバイスに「Apple Intelligence」機能を導入する計画です。
📱 新しいiPadと近日発売予定のiPhoneには、「Apple Intelligence」に対応したハードウェアが搭載されます。

12、北京市、新たに12種類の生成AIサービスを备案、累計94種類に

北京市は最近、新たに12種類の生成AIサービスを备案し、累計备案数は94種類となりました。ユーザーにより多くの選択肢と利便性をもたらします。すでに稼働しているAIアプリケーションは、モデル名と备案番号を含む备案状況を公表する必要があります。今回の新たに备案されたリストには、快手科技の可灵AIと昆仑万维科技の天工画像が含まれています。

【AiBase要約:】
📈 北京市は新たに12種類の生成AIサービスを备案し、累計94種類となりました。
🔍 稼働中のAIアプリケーションは、モデル名と备案番号を含む备案状況を公表する必要があります。
📋 今回の新たに备案されたリストには、快手科技の可灵AIと昆仑万维科技の天工画像が含まれています。