【AI日報】へようこそ!ここは、あなたが毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットなコンテンツをご紹介し、開発者に焦点を当て、技術トレンドの洞察や革新的なAI製品の応用に関する情報を提供します。
最新のAI製品 詳細はこちら:https://top.aibase.com/
🤖📱💼AIアプリケーション
Soraに対抗?2分間の超長尺AI動画モデルStreamingT2Vが無料オープンソースで公開 試用版アドレスも公開
【AiBaseより】
⭐ StreamingT2Vは、最大1200フレーム、2分間の動画を生成でき、Soraモデルを凌駕します。
⭐ 先進的な自己回帰技術を採用し、動画の時間的一貫性と高画質を維持します。
⭐ 無料のオープンソースプロジェクトであり、SVDやanimatediffなどのモデルとシームレスに互換性があります。
⭐ コードが公開され、試用版アドレスも公開されました。生成時間は長く、1本の動画の生成には13分以上かかります。
オープンソースコード:https://top.aibase.com/tool/streamingt2v
論文アドレス:https://arxiv.org/pdf/2403.14773.pdf
試用版アドレス1:https://huggingface.co/spaces/PAIR/StreamingT2V
試用版アドレス2:https://replicate.com/camenduru/streaming-t2v
Udio AIは多機能な音声生成を提供 コメディ、スピーチ、ラジオ放送なども作成可能
【AiBaseより】
⭐ Udioは音楽だけでなく、コメディ、スピーチ、NPC会話、スポーツ解説、広告、ラジオ放送、ASMR、自然音などを作成できます。
⭐ 簡単なテキスト説明による作成:ユーザーは簡単なテキスト説明で、Udioに特定のテーマと感情を持つ音楽作品を生成させることができます。
⭐ 幅広い音楽ジャンルとスタイルに対応:Udioは様々な音楽ジャンルとスタイルに対応し、様々なユーザーの音楽的嗜好を満たします。
興味のある方は、プレイリストをご覧ください:https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1
美図Winkの「AIアニメ」機能がアップグレード 短編作品をアニメ風に変換可能に
【AiBaseより】
⭐ 最近、美図Winkの「AIアニメ」機能がアップグレードされ、短編作品をアニメ風に変換できるようになりました。
⭐ CFAモジュールが導入され、動作の一貫性が向上し、より滑らかで自然なアニメーション動画が生成されます。
⭐ 長尺動画は分割技術で処理されるため、待ち時間が短縮され、よりスムーズな制作が可能です。
StableDesign:室内装飾デザイン向けのSDソリューション テキストプロンプトで室内デザイン図を修正可能
【AiBaseより】
⭐️ 生成型室内デザイン向けプロジェクトが開発されました。
⭐️ Airbnbの物件データと画像メタデータのダウンロード、特徴抽出を行い、トレーニングを実施しました。
⭐️ ControlNetとローラモデルを用いたトレーニングにより、室内デザイン生成のコントロールとテキストから画像への変換を実現しました。
オンライン体験:https://huggingface.co/spaces/MykolaL/StableDesign
顔交換より強力!SwapAnything:画像内の任意の要素を置き換え可能
【AiBaseより】
🔍 SwapAnythingフレームワークは、オブジェクトと部分の精密な制御、コンテキストピクセルの保持、パーソナライズされた概念への適応などの利点があります。
🔍 方向変数交換と外観調整技術により、SwapAnythingは正確で忠実な交換能力を示します。
🔍 SwapAnythingは画像内で任意のオブジェクトを正確に制御し、高品質なパーソナライズされた交換を実現します。
プロジェクト入口:https://top.aibase.com/tool/swapanything
AIタイムラプス動画生成ツールMagicTimeのオンライン体験版アドレスが公開
【AiBaseより】
⭐ タイムラプス動画は、長時間の変化を示す撮影技術です。
⭐ MagicTimeは、テキストの説明に基づいてタイムラプス動画を生成できます。
⭐ 自然現象や人為的な変化の記録など、幅広い用途があります。
プロジェクトアドレス:https://top.aibase.com/tool/magictime
体験アドレス:https://huggingface.co/spaces/BestWishYsh/MagicTime
モデルダウンロードアドレス:https://huggingface.co/Kijai/MagicTime-merged-fp16
自動化ライティングツールSTORM:ウィキペディアのような詳細な長編コンテンツを生成可能
【AiBaseより】
⭐️STORMは資料を自動的に収集し、専門家の対話をシミュレートして、構造化された記事の概要を生成します。
⭐️STORMは、多角的な情報を効率的に調査・統合し、深い理解と正確な問題生成を促進します。
⭐️STORMは記事の概要を生成した後、記事全体を執筆・推敲して全体の品質を向上させます。
プロジェクトアドレス:https://top.aibase.com/tool/storm
Meta、ViewDiffモデルを発表:テキストから多視点3D画像を生成
【AiBaseより】
🌟 ViewDiffは、テキスト生成の一貫性、多視点3D画像の3つの難題を解決しました。
🌟 自己回帰生成モジュールにより、ViewDiffは任意の視点でより多くの3Dの一貫性のある画像を生成します。
🌟 ViewDiffは、テキストから多視点3D画像を生成する分野における技術的な空白を埋めました。
論文アドレス:https://arxiv.org/abs/2403.01807
プロジェクトアドレス:https://top.aibase.com/tool/viewdiff
📰🤖📢AIニュース
初のAIプログラマーによる偽造が摘発、Devinが再びシリコンバレーを震撼!詳細な動画解説付き
【AiBaseより】
⭐️ YouTubeのプログラマーが、最初のAIプログラマーDevinによる動画の偽造を暴露しました。
⭐️ Devinのデモは実際ほど魔法のようではなく、バグの修正中に新しいバグを作成していました。
⭐️ 疑問と反論を受け、AI製品の宣伝に冷ややかな反応を示すネットユーザーもいます。
詳細:https://www.chinaz.com/2024/0415/1610127.shtml
マスク氏のxAIがGrok-1.5Visionマルチモーダルモデルを発表、テキストと画像情報を処理可能に
【AiBaseより】
⭐️ Grok-1.5Visionモデルは優れた性能を示し、GPT4Vを凌駕します。
⭐️ RealWorldQAベンチマークテストで優れた成績を収め、現実世界の物理空間を理解しています。
⭐️ Grok-1.5Visionモデルは、現実世界の空間処理と理解能力に優れています。
公式サイト:https://top.aibase.com/tool/grok-1-5-vision-preview
360智脑7Bパラメーターの大規模言語モデルが正式にオープンソース化 最大約50万文字の入力に対応
【AiBaseより】
🧠360智脑7Bパラメーターの大規模言語モデルが正式にオープンソース化されました。
🧩 異なるテキスト長に対応したバージョンがあり、最大360K文字の長文を処理できます。
🔥 能力テストで優れた成績を収め、総合能力でトップ3に入っています。
プロジェクトアドレス:https://github.com/Qihoo360/360zhinao
Adobeの画像生成AI「Firefly」のトレーニングデータに約5%のAI画像が含まれる
【AiBaseより】
⭐ Adobe StockはAIコンテンツの受け入れを開始し、約14%がAI生成画像です。
⭐ 学者は、FireflyがMidjourneyで生成された画像を学習しており、その主張とは異なる点を指摘しています。
⭐ ユーザーは、Adobeが自分の作品をFireflyのトレーニングに使用することに不満を示しています。
コードとモデルが完全にオープンソース!賈佳亞氏のチームによるマルチモーダルモデルMini-Geminiがトレンド入り
【AiBaseより】
⭐️ Mini-Geminiモデルはマルチモーダルタスクで顕著な成果を上げており、コードとモデルデータがオープンソース化されています。
⭐️ Mini-Geminiは画像の理解と生成を組み合わせ、優れた画像推論能力を示します。
⭐️ Geminiビジュアルデュアルブランチ情報マイニング手法を採用し、高解像度画像の処理とコンテンツの豊富な視覚的およびテキストコンテンツの生成を効果的に行います。
プロジェクトアドレス:https://top.aibase.com/tool/mini-gemini
試用版アドレス:https://103.170.5.190:7860/
面壁智能がMiniCPM2.0シリーズモデルをオープンソース化 OCRなどの機能が大幅に向上
【AiBaseより】
⭐ MiniCPM-V2.0は、エッジデバイス向けで最も強力なマルチモーダルモデルであり、強力なOCR機能を備えています。
⭐ MiniCPM-1.2Bは、エッジデバイスのシナリオに適した基盤モデルであり、推論速度が速く、コストが低いです。
⭐ MiniCPM-2B-128Kは、現在最小の長文モデルであり、128K文字のテキストコンテンツを処理できます。
MiniCPM-V2.0:
https://github.com/OpenBMB/MiniCPM-V
MiniCPMシリーズのオープンソースアドレス:
https://github.com/OpenBMB/MiniCPM
MiniCPM技術ブログアドレス:
https://openbmb.vercel.app/?category=Chinese+Blog
競争激化!ChatGPTの成長が鈍化 3月の世界アクセス数は17.7億回、Claudeが台頭
【AiBaseより】
📉 ChatGPTの世界アクセス数の伸びが鈍化、新機能の導入にもかかわらず。
🚀 AnthropicのClaudeがヨーロッパ市場で急速に成長し、ChatGPTとの競争が激化しています。
💥 Claude3の発表後、継続的に急速に成長しており、新製品の可能性を示しています。
InstantIDチームが新しいスタイル転送方法InstantStyleを発表 「ゴッホの星月夜」の世界へ一键で
【AiBaseより】
⭐️特徴減算:CLIPモデルの特性を利用し、特徴減算によってコンテンツ情報を除去することで、スタイルとコンテンツの分離を実現します。
⭐️スタイル層のみの注入:特定のスタイル層で特徴注入を行うことで、スタイルとコンテンツの分離を実現します。
⭐️汎用性の高さ:InstantStyleの手法は汎用性が高く、豊富なコード実装を提供し、様々なアプリケーションシナリオに対応しています。
プロジェクトアドレス:https://top.aibase.com/tool/instantstyle
オンライン試用:https://huggingface.co/spaces/InstantX/InstantStyle
——————
今日のmidjourneyプロンプト:小説風古代美女