【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの把握と革新的なAI製品の応用を支援します。
最新AI製品 詳細はこちら:https://top.aibase.com/
📰🤖📢AI最新情報
OpenAIがGPT-4-Turbo正式版を発表 画像認識機能搭載
【AiBase要約:】
⭐GPT-4-Turbo正式版が全面公開されました。「gpt-4-turbo」でこのモデルを使用できます。最新バージョンは「gpt-4-turbo-2024-04-09」です。
⭐GPT-4-Turboは、ビジュアル機能を備えたモデルで、128kコンテキストを処理できます。
⭐価格は据え置きです。入力$10.00/100万トークン、出力$30.00/100万トークン、画像認識:最低$0.00085/画像
インターフェース情報:https://platform.openai.com/docs/models/continuous-model-upgrades
価格情報:https://openai.com/pricing
関連制限:https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-five
重大発表!GPT-4 APIが全面的に利用可能に
【AiBase要約:】
⚙️ GPT-4は、より強力な創造性を備え、クリエイティブなアイデアや技術的な文章作成タスクの生成、編集、共同での反復作業をサポートします。
🔍 GPT-4は、より長いコンテキスト処理能力を備えており、長文コンテンツの作成、会話の拡張、ドキュメントの検索と分析などのシナリオに適しています。
🏢 モーガン・スタンレーなどの企業はすでにGPT-4を導入し、社内ロボットに組み込んで、財務担当者が情報を検索し、時間を節約するのに役立てています。
APIの詳細な使用方法:https://platform.openai.com/docs/guides/gpt
GoogleがGemini 1.5 ProのAPIを公開 多機能を追加
【AiBase要約:】
🎵 Gemini 1.5 Proは、テキストへの変換を必要としないネイティブな音声理解機能を導入しました。
📄 Gemini 1.5 Proは、入力モダリティの範囲を拡大し、ビデオコンテンツの処理をサポートします。
💻 Gemini APIが改良され、システム命令によるモデル応答とJSONスキーマが追加されました。
詳細はこちらをご覧ください:
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音声理解機能:
https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb
SD3が4月中旬にリリース予定!6種類の規模のモデルが登場か
【AiBase要約:】
⭐ SD3は4月中旬に正式リリースされる予定です。SD3とSD3 Turboに関する論文が2本発表されています。
⭐ SD3は、最大6種類の異なる規模のモデルを備え、さまざまなニーズに対応する可能性があります。
⭐ SD3は80億個のパラメータを持ち、RTX 4090に対応しており、1024x1024の画像生成には34秒かかります。
SD3論文:https://arxiv.org/abs/2403.12015
SD3 Turbo論文:https://arxiv.org/abs/2403.03206
SD3で作成された画像はこちらをご覧ください:https://sd3.art/
H100超えの性能!インテルが次世代AIチップGaudi 3を発表!Nvidiaへの圧力高まる!
【AiBase要約:】
⭐ Gaudi 3は、NvidiaのH100を上回る性能を誇り、最強のAIチップの一つです。
⭐ Gaudi 3のエネルギー効率はNvidiaチップの2倍以上で、速度も速いです。
⭐ Gaudi 3は、先進的な5nmプロセスを採用し、128GBのHBM2eメモリを搭載しています。
詳細:
https://www.intel.com/content/www/us/en/newsroom/news/vision-2024-gaudi-3-ai-accelerator.html#gs.7q25hh
PoeがAIロボットクリエイター向けに、メッセージ課金による収益モデルを導入
【AiBase要約:】
⭐ Poeは、メッセージ課金による収益モデルを導入しました。
⭐ 新しい収益モデルは、多様なロボットの開発を促進するのに役立ちます。
⭐ クリエイターは、自分のロボットごとにメッセージごとの価格を設定し、収益を得ることができます。
Mistral AIの最新磁力リンクが公開!8x22B MoEモデル、281GBが解禁
【AiBase要約:】
🌟 Mistral AIが再び磁力リンクを公開し、281GBの8x22B MoEモデルを解禁しました。
🌟 Mistral AIは、一つの磁力リンクでAIコミュニティを熱狂させました。
🌟 新しいMoEモデルは、多言語に対応し、強力な性能を備え、フラッグシップ版はGPT-4に直接匹敵します。
TikTokのAIエフェクトが宮﨑駿風で話題に
【AiBase要約:】
⭐ 映画のプロモーションチームとTikTokが協力して、宮﨑駿アニメ風のAIエフェクトをリリースし、200万人のユーザーが参加しました。
⭐ エフェクトの使用は議論を呼んでおり、支持者は宮﨑駿へのオマージュだと主張する一方、反対者は巨匠の意向に反すると主張しています。
⭐ 議論の中で、宮﨑駿によるAIアニメ技術への反対が指摘されましたが、実際の動画はAI技術ではありませんでした。
Sunoの楽曲がbilibiliの鬼畜区を席巻 「鋼鉄の扉が緩んでいる」が最も人気なテーマに
【AiBase要約:】
🎶 楽曲「君の鋼鉄の扉は少し緩んでいる」がbilibiliで話題になり、数百万人のユーザーが注目しています。
🎤 AI音楽が人気を集め、Sunoソフトウェアが鬼畜音楽制作を牽引し、画期的な成功を収めました。
📈 AI音楽のコメント欄は活気があり、ユーザーはユーモラスで皮肉なやり取りで創造性を発揮しています。
アップルが新しい機械学習言語モデルMLLLM Ferret-UIを発表 アプリのUIインターフェースを理解
【AiBase要約:】
⭐️ Ferret-UIは、モバイルUI画面用に設計されたMLLLMで、参照、位置特定、推論機能を備えています。
⭐️ 「任意の解像度」技術を採用し、小型オブジェクトの理解精度を向上させています。
⭐️ Ferret-UIは、会話能力により、詳細な説明、インタラクティブな会話、機能推論などのタスクで優れた性能を発揮します。
論文アドレス:https://arxiv.org/pdf/2404.05719.pdf
馬雲が社内文書で発言:アリババの変革1年間の成果を肯定 AI時代到来と強調
【AiBase要約:】
⭐ 馬雲はアリババの新経営陣の勇気を評価し、同社が健康的な成長軌道に戻ったと述べています。
⭐ 馬雲は、アリババの中核的な変化は顧客価値への回帰だと考えています。
⭐ 馬雲は、インターネット業界は今後3~5年で劇的な変化を遂げると予測し、AI時代がまさに到来したと述べています。
🤖📱💼AIアプリケーション
百度網盤がAIクリエイティブ生成ツール「超能画布」を発表
【AiBase要約:】
⭐独自の画像大規模モデルとインテリジェントな顔融合アルゴリズム
⭐豊富な背景、衣装の切り替えオプションを提供
⭐人物の表情、髪の色を部分的に再描画可能
現在有効なGPT-3.5の無料利用(ログイン不要)プロジェクト
1⃣Aurora https://github.com/aurora-develop/aurora
(様々な無料利用方法、Render/Vercelなどワンクリックで展開可能)
2⃣ChatGPT https://github.com/PawanOsman/ChatGPT
(DockerとAndroidに対応、非常に安定している)
3⃣FreeGPT35https://github.com/missuo/FreeGPT35
(パラメータが多く、Nginxリバースプロキシに対応)
Googleが新しいAIビデオツールGoogle Vidsを発表 多機能を統合
【AiBase要約:】
📱 Google Vidsは、複数の機能を統合し、ユーザーが簡単にストーリーボードを作成するのに役立ちます。
🖼️ AI技術がコンテンツの編集を支援し、適切なシーン、画像、音楽を選択します。
🎙️ ユーザーはビデオにナレーションを追加して、ビデオの個性とプロフェッショナリズムを高めることができます。
AIでもタイムラプスビデオが作成可能に MagicTimeでテキストを入力するだけで植物の成長ビデオが生成
【AiBase要約:】
⭐️MagicTimeモデルは、変形タイムラプスビデオの生成に特化しています。
⭐️生成されたビデオは現実世界の物理法則に従っており、自然な植物の成長過程のビデオを生成できます。
⭐️プロンプトの理解が正確で、生成品質も高いです。
プロジェクトデモ:https://top.aibase.com/tool/magictime
コード:https://github.com/PKU-YuanGroup/MagicTime
DreamWalk:画像生成のスタイルとコンテンツを細かく制御
【AiBase要約:】
⭐ ユーザーは、画像のどの部分をどの程度強く特定のスタイルで表現するかをより自由に決定できます。
⭐ DreamWalkは、異なるスタイル間のスムーズな遷移をサポートし、生成された画像の調和と統一性を確保します。