【AI日報】へようこそ!ここでは、人工知能の世界を探求するための毎日のガイドとして、AI分野のホットな話題を毎日お届けします。開発者をターゲットに、技術トレンドの把握や革新的なAI製品の応用について理解を深めていただくお手伝いをします。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、テンセントのSaaS製品がインテリジェント化、混元モデルを全面導入

テンセントは、自社の協業SaaS製品に混元モデルを全面導入し、ソフトウェアサービスのインテリジェント化を実現すると発表しました。テンセント楽享、テンセント電子署名、テンセントアンケートなどの製品は既にインテリジェント化され、ユーザーによりスマートで効率的なサービスを提供しています。混元大規模モデルは、パラメーター規模が1兆を超え、国内で初めて混合専門家モデル構造を採用しており、優れた性能を発揮しています。外部開発者や企業は、テンセントクラウド上のAPIを通じて直接テンセント混元機能を呼び出し、ユーザーの課題を解決できます。

【AiBase要約:】

🚀 テンセントのSaaS製品がインテリジェント化され、よりスマートで効率的なサービスを提供。

💡 混元大規模モデルのパラメーター規模が1兆を超え、多方面で優れた性能を発揮。

🔗 外部開発者や企業は、テンセントクラウドAPIを通じて混元機能を呼び出し、様々なシーンにおける課題を解決可能。

2、マイクロソフト、iPhoneで動作するChatGPTレベルのAIモデルPhi-3シリーズを発表、OpenAIに挑戦

マイクロソフトが新たに発表した小型AIモデルPhi-3シリーズはAI業界に衝撃を与えています。特にPhi-3-miniモデルは、パラメーター数の多いLlama3モデルを複数のベンチマークテストで上回りました。このシリーズのモデルは、iPhone 14 ProとiPhone 15で毎秒12トークンを実行でき、ChatGPTレベルに達しています。マイクロソフトは、厳選されたデータとトレーニング方法によってモデルの性能を向上させたことを強調しています。

image.png

【AiBase要約:】

🚀 Phi-3-miniモデルのパラメーター数はわずか38億個だが、80億個のパラメーターを持つLlama3モデルを上回る性能。

💡 Phi-3シリーズには、Phi-3-smallとPhi-3-mediumのバージョンがあり、優れた性能を発揮。

🔍 マイクロソフトチームは、厳選されたトレーニングデータと独自のトレーニング方法により、Phi-3シリーズモデルの性能を向上。

詳細リンク:https://arxiv.org/pdf/2404.14219.pdf

3、全国初AI音声侵害事件の第一審判決、AI化された自身の声が販売され25万元の賠償

この記事では、全国初となるAI音声侵害事件の第一審判決の結果を報じています。声優の声がAI技術で不正利用された事件は、社会的な関心を集めています。裁判所は、被告が声優の許可なくその声を用いてAI製品を開発したことは侵害行為にあたり、25万元の賠償を命じました。判決は、声は人格権として法的保護を受けるべきであると強調し、音声制作者にとって重要な法的保護を提供しました。

【AiBase要約:】

🔍 AI音声侵害事件の第一審判決:被告は声優の許可なく声を用いてAI製品を開発し、25万元の賠償を命じられる。

💡 裁判所は、声は独特の人格権として法的保護を受けるべきであり、許可なく使用することは侵害行為であると強調。

👩‍⚖️ 判決は音声制作者にとって重要な法的保護を提供し、音声権益の保護と侵害行為の取り締まりを徹底。

4、中国語チャットモデルLlama3-8B-Chinese-Chatが公開

この記事では、Meta-Llama-3-8B-InstructモデルをORPO手法で微調整した中国語チャットモデルLlama3-8B-Chinese-Chatを紹介しています。このモデルは、英語と中国語が混在した回答や絵文字の使用を減らし、よりフォーマルで専門的な回答を提供します。中国語の質問の意図を理解し、適切な回答を提供し、不適切な要求を拒否する点で優れた性能を発揮します。

【AiBase要約:】

🔑 Llama3-8B-Chinese-Chatは、Meta-Llama-3-8B-InstructモデルをORPO手法で微調整した中国語チャットモデルで、英語と中国語が混在した回答や絵文字の使用を削減。

🌟 ORPO手法はオッズ比の概念を利用してモデルの嗜好設定を調整し、特定のタスクにおけるモデルの性能を最適化。Llama3-8B-Chinese-ChatモデルはORPOを用いて英語と中国語の生成嗜好を最適化。

💡 Llama3-8B-Chinese-Chatモデルは、安全性、倫理、数学問題の解答、ライティング、プログラミングの例などにおいて優れた性能を発揮し、より正確で専門的な回答とサンプルコードを提供。

詳細リンク:https://top.aibase.com/tool/llama3-8b-chinese-chat

5、Adobe、ビデオ超解像度プロジェクトVideoGigaGANを発表

Adobeは最近、ビデオ超解像度プロジェクトVideoGigaGANを発表しました。このプロジェクトは、ビデオ拡大技術において顕著な進歩を遂げ、ビデオを元の解像度の8倍に拡大しながら、時間的一貫性と高周波数詳細の鮮明さを維持できます。この技術はビデオ処理を新たな段階へと導き、ビデオコンテンツの応用範囲と品質を大幅に拡大します。

image.png

【AiBase要約:】

✨ VideoGigaGANはビデオを元の解像度の8倍に拡大し、時間的一貫性と高周波数詳細の鮮明さを維持。

🔍 AdobeはGigaGANモデルを最適化し、ビデオの安定性を向上させ、優れた性能を発揮。

💡 VideoGigaGANはビデオの画質を向上させ、様々なスタイルのビデオコンテンツに対応し、幅広い応用可能性を秘めている。

詳細リンク:https://top.aibase.com/tool/videogigagan

6、Midjourney、random機能を発表 プロンプトに基づいて完全にランダムな画像スタイルを生成

Midjourneyは、プロンプトに基づいて完全にランダムな画像スタイルを生成できる面白い機能を発表しました。ユーザーはランダムに生成された画像スタイルを通じて様々な創作の方向性を模索でき、他のユーザーとリアルタイムで交流や共有を行い、創作過程におけるインスピレーションやアイデアについて議論することもできます。この機能の追加により、ユーザーの画像生成体験がさらに豊かになり、より多くの創作選択肢と交流プラットフォームが提供されます。

image.png

【AiBase要約:】

⚙️ プロンプトに基づいて完全にランダムな画像スタイルを生成可能

💬 ユーザーはRoom機能を通じてリアルタイムで交流や共有が可能

🎨 様々な創作の方向性を模索し、ユーザーの画像生成体験を豊かにする

7、AIユニコーン企業「月之暗面」創業者楊植麟氏、数千万ドルを換金 公式発表

月之暗面の創業者である楊植麟氏が、個人株式の売却で数千万ドルを換金したことが大きな注目を集めています。同社は設立からわずか1年で巨額の資金調達を行い、評価額は25億ドルを超えています。月之暗面の成功は評価額だけでなく、主力製品であるKimi Chatの成功にも表れています。

【AiBase要約:】

🚀 月之暗面の創業者楊植麟氏が個人株式の売却で数千万ドルを換金、企業評価額は25億ドルを超える。

💡 月之暗面は設立からわずか1年で急成長を遂げ、中国の大規模言語モデル分野におけるユニコーン企業の一つとなる。

💬 月之暗面の主力製品Kimi Chatは「長文」機能でAI大規模言語モデル分野で頭角を現し、資本市場の熱狂を巻き起こす。

8、迷わず!ザッカーバーグ氏、100億ドル規模のモデルをオープンソース化すると表明 2025年までにAGIは実現不可能と断言

最新のポッドキャストインタビューで、ザッカーバーグ氏はオープンソースの英雄像を演じ、100億ドル規模のモデルをオープンソース化することを表明し、オープンソース化がコスト削減とイノベーション促進に繋がる一方で、経済的な利害得失を総合的に考慮する必要があると強調しました。彼は2025年までにAGIが実現する見込みは低いと悲観的な見方を示し、エネルギー不足がボトルネックであり、解決には数十年かかる可能性があると述べています。アップルとグーグルによるモバイルエコシステムの独占を批判し、オープンソース化によって状況を変え、競合他社の脅威から身を守ることを望んでいます。人工知能開発のボトルネックについては、エネルギー制限とデータセンターの課題を懸念し、将来のAIモデル能力の向上に対しては保留的な見方を示しています。

【AiBase要約:】

💡 ザッカーバーグ氏は100億ドル規模のモデルをオープンソース化することを表明し、オープンソース化がコスト削減とイノベーション促進に繋がるが、経済的な利害得失を総合的に考慮する必要があると考える。

💡 2025年までにAGIが実現する見込みは低いと悲観的な見方を示し、エネルギー不足がボトルネックであり、解決には数十年かかる可能性があると考える。

💡 アップルとグーグルによるモバイルエコシステムの独占を批判し、オープンソース化によって状況を変え、競合他社の脅威から身を守ることを望んでいる。

9、バイトダンス、画像モデル蒸留アルゴリズムHyper-SDを発表

この記事では、バイトダンスのLightningチームが発表した新しい画像モデル蒸留アルゴリズムHyper-SDを紹介しています。このアルゴリズムは、画像処理と機械学習の分野で重要な進歩を遂げています。革新的な手法によりモデルの性能が向上し、モデルを簡素化しながら推論速度と効率が向上しています。

image.png

【AiBase要約:】

⚙️ セグメント軌跡一貫性蒸留:Hyper-SD技術は元のODE軌跡の完全性を確保。

🧠 ヒューマンフィードバック学習メカニズム:ヒューマンフィードバック学習を導入し、モデルの性能を向上させ、性能低下を抑制。

🔬 スコア蒸留技術:低ステップ推論下でのモデルの生成能力を強化し、性能をさらに向上。

詳細リンク:https://top.aibase.com/tool/hyper-sd

10、AI音楽生成ツールAI Jukebox プロンプトを入力して音楽スタイルを選択するだけで音楽を作成

AI Jukeboxは、人工知能技術を利用した音楽生成ツールで、Hugging Faceプラットフォームを通じてサービスを提供しています。音楽制作プロセスを簡素化し、インテリジェントでユーザーフレンドリーです。ユーザーはプロンプトを入力することでAIに特定のスタイルの音楽を生成させ、インテリジェントな音楽制作を実現できます。AI Jukeboxは人機協働モデルを推奨し、音楽家や音楽愛好家にインスピレーションと制作ツールを提供し、無限の可能性を探求します。

image.png

【AiBase要約:】

🎵 ローカルモデルの読み込み:AI Jukeboxのウェブページを開くと、システムが自動的に生成モデルを読み込み、複雑な設定は不要。

🎶 プロンプトベースの音楽生成:ユーザーは特定のプロンプトを入力して、AIに特定のスタイルの音楽(音楽の種類、感情、楽器など)を生成させる。

🎼 人機協働モデル:AI JukeboxはユーザーとAIの協働を推奨し、新しい音楽制作方法を探求し、インスピレーションと制作ツールを提供。

詳細リンク:https://top.aibase.com/tool/ai-jukebox

11、バーチャルヒューマンチャットシステムLive2D

この記事では、Unityで開発されたLive2Dバーチャルヒューマンチャットシステムプロジェクトを紹介しています。Live2D技術を用いて動的なバーチャルヒューマンの画像を表示し、スムーズなアニメーション効果を提供し、ユーザーインタラクション体験を向上させています。このプロジェクトは、Azure、OpenAI、APISpaceなどのAPIを統合し、自然言語処理と生成をサポートし、リアルタイムでのテキストコミュニケーションを実現しています。また、画像処理と顔認識、高解像度表示、カスタム拡張機能にも対応しています。

image.png

【AiBase要約:】

👩‍💻 Live2Dバーチャルヒューマンの画像を統合し、スムーズなアニメーション効果を提供し、ユーザー体験を向上。

💬 リアルタイムチャット機能により、バーチャルヒューマンはユーザーのテキスト入力を理解し、応答し、リアルタイムでのコミュニケーションを実現。

🔍 画像処理と顔認識により、バーチャルヒューマンはユーザーの視覚入力に効果的に反応。

詳細リンク:https://top.aibase.com/tool/live2d-virtual-human-for-chatting-based-on-unity

12、香港大学と浙江大学が共同でSC-GSモデルを開発

この記事では、香港大学CVMI研究所と3D大規模モデル企業VAST、浙江大学合同研究チームが提案したSC-GSモデルを紹介しています。このモデルは、デジタルアセットの制作と3D再構築の分野で画期的な成果を上げています。疎な制御点によるリアルタイムインタラクティブ編集により、動的なシーンの高効率編集と合成を実現し、大きな可能性を示しています。

image.png

【AiBase要約:】

🌟 SC-GSモデルは新しい視点合成分野に革命的な波を起こし、動的高スの疎な制御点に対するリアルタイムインタラクティブ編集能力を示す。

🔑 ユーザーは簡単なマウスのドラッグとキーボードの組み合わせ操作で、再構築された動的シーンの編集を簡単に実現できる。