【AI日報】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットな情報を提供し、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用に関する理解を支援します。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、阿里巴巴がFLUX.1-Turbo-Alphaを発表:FLUX.1-devベース、8ステップ蒸留Lora
阿里巴巴ママのクリエイティブチームは、FLUX.1-devモデルをベースにトレーニングされたFLUX.1-Turbo-Alphaを発表しました。8ステップ蒸留Loraモデルを採用し、多頭判別器により蒸留品質が大幅に向上、様々なFLUX関連アプリケーションに対応しています。推奨ガイドスケールは3.5、Loraスケールは1で、今後ステップ数の少ないバージョンもリリース予定です。このモデルはDiffusersフレームワークと組み合わせて使用でき、数行のコードで高品質な画像を生成できます。100万枚以上の画像でトレーニングされ、敵対的トレーニング方法を採用、6.3以上の美的評価を得ており、解像度は800を超えています。FLUX.1-Turbo-Alphaの登場は、人工知能技術の普及と応用を促進します。
【AiBase要約:】
🌟 FLUX.1-devをベースに、8ステップ蒸留と多頭判別器を採用し、画像生成品質を向上。
🖼️ テキストから画像への生成と修復コントロールネットに対応し、ユーザーは簡単に様々な面白いシーンを作成できます。
📊 敵対的トレーニングを採用したトレーニング過程で、100万枚以上の画像を使用し、高品質な出力を実現。
詳細リンク:https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha
2、煩雑なアライメントはもう不要!F5-TTSでテキスト読み上げが簡単に!
最近、上海交通大学、ケンブリッジ大学、吉利汽車研究院の研究チームが、F5-TTSという新しいテキスト読み上げ(TTS)システムを発表しました。このシステムは、非自己回帰方式を採用し、フローマッチングと拡散トランスフォーマー(DiT)を組み合わせることで、従来のTTSモデルにおける複雑な手順を簡素化することに成功しました。
【AiBase要約:】
🌟 F5-TTSは、従来のTTSモデルの複雑さを簡素化した新しい非自己回帰型テキスト読み上げシステムです。
⚡ ConvNeXtとDiTを組み合わせることで、テキストと音声のアライメント効果を高め、合成品質を向上させています。
🔒 研究チームは倫理的問題にも注目し、不正使用を防ぐためにウォーターマークと検出メカニズムの導入を推奨しています。
プロジェクト入口:https://github.com/SWivid/F5-TTS
体験アドレス:https://huggingface.co/spaces/mrfakename/E2-F5-TTS
3、OPPOの文書AI新機能が公開!Apple iWork形式変換、文書翻訳、文書スキャンに対応!
OPPOは本日、新しい文書アプリのリリースを予告する情報を発表しました。「ファイル自由自在」「AI自由自在ライティング」「形式自由自在変換」「文書自由自在検索」など、多数の機能に対応するとのことです。
【AiBase要約:】
📝 OPPOが新しい文書アプリをリリース予定で、多数のAI機能に対応。
🔄 Apple iWork形式の変換に対応し、互換性を向上。
📄 文書のスキャンと翻訳機能を提供し、文書処理体験を最適化。
4、アリババのCodeFuse IDE 0.6版リリース エディターによる問題診断とAIによる修復に対応
アリババのCodeFuse IDE 0.6版がリリースされ、エディターによる問題診断とAIによる修復機能、およびインライン補完機能が追加され、コード作成の利便性と効率性が向上しました。このIDEは主要なプログラミング言語に対応し、コード作成の提案や問題の修復などの機能を提供します。
【AiBase要約:】
🚀 IDEにエディターによる問題診断とAIによる修復機能が追加され、開発者はホバーで表示されるスマート修復ボタンを使ってエラー情報を解決できます。
⚙️ コードのスマート補完体験が最適化され、ドロップダウン補完とインライン補完が同時に表示され、ユーザーはTabキーでインライン補完を素早く採用できます。
💻 CodeFuse IDEはアリババ独自開発の大規模モデルとOpenSumiフレームワークをベースに開発されており、スマートターミナル、単体テスト生成などの機能を提供しています。
詳細リンク:https://github.com/codefuse-ai/codefuse-ide
5、アップルの「マルチモーダル錬丹炉」が再びアップグレード!MM1.5はテキスト密集型、複数画像理解を強化
アップルは最近、マルチモーダル人工知能モデルMM1をMM1.5に大幅にアップグレードしました。今回のアップグレードは単なるバージョン番号の変更ではなく、あらゆる面での能力向上であり、様々な分野でより強力な性能を発揮しています。MM1.5の中核となるアップグレードは、高解像度のOCRデータや合成画像記述の使用、最適化されたビジュアル指示微調整データの混合など、革新的なデータ処理方法にあります。
【AiBase要約:】
🚀 MM1.5はデータ中心のトレーニング方法を採用し、トレーニングデータセットを最適化することで、文字認識、画像理解、ビジュアル指示の実行などにおいて顕著な性能向上を実現しています。
💡 MM1.5には、10億から300億パラメーターの複数のバージョンがあり、密集型と専門家混合(MoE)バリアントが含まれており、小規模なモデルでも印象的な性能を発揮します。
🔍 MM1.5の能力向上は、テキスト密集型画像理解、ビジュアル指示と位置特定、複数画像推論、ビデオ理解、モバイルUI理解など、様々な分野でアプリケーションシナリオを拡大しています。
詳細リンク:https://arxiv.org/pdf/2409.20566
6、合成データは有害!Metaチームが確認:わずか1%のデータで巨大言語モデルが完全に崩壊
最近、AI業界で奇妙な出来事が発生しました。それは、まるで食べ放題のYouTuberが突然自分で作った料理を食べ始め、どんどん中毒になり、料理がどんどんまずくなっていくようなものです。専門用語ではモデル崩壊(model collapse)と呼ばれ、AIモデルがトレーニング中に大量の自己生成データを使用すると悪循環に陥り、生成品質が低下し、最終的に失敗してしまう現象です。
【AiBase要約:】
🔍 モデル崩壊現象:AIモデルがトレーニング中に合成データに過度に依存することで生成品質が低下し、最終的に崩壊する現象。
💡 解決策:実データの優先使用、合成データの使用を慎重に行い、モデル規模を制御することでモデル崩壊を防ぐ。
📈 実験により、わずか1%の合成データでもモデル崩壊を引き起こす可能性があり、モデル規模が大きいほど崩壊現象が深刻になることが判明。
詳細リンク:https://arxiv.org/pdf/2410.04840
7、受賞AI作品「宇宙オペラハウス」の著作権申請が却下
最近、合成メディアアーティストのJason Allen氏が制作した作品「宇宙オペラハウス」が著作権事務所によって登録を拒否されたことが物議を醸しています。Allen氏は決定に不服を申し立て、作品には大量の人間による創作要素が含まれており、著作権保護を受けるべきだと主張しています。AI生成作品が著作権保護を受けるべきかどうかが焦点となり、AIアートの創作に関する著作権法に関する議論を引き起こしています。
【AiBase要約:】
🌟 Allen氏は作品には大量の人間による創作要素が含まれており、著作権保護を受けるべきだと主張。
🤖 著作権事務所はAI生成作品には人間による創作要素が不十分であるとして、登録を拒否。
📜 Allen氏の上訴は、AIアートの創作に関する著作権法の更なる議論を促進する可能性がある。
8、TSMCの第3四半期利益が40%増加、AIブームが需要急増を後押し
最近、TSMCは第3四半期の純利益が40%の大幅増加になると発表し、AIチップ需要の急増がその要因となっています。同社の顧客にはアップルやNVIDIAなどの有名企業が含まれ、AI技術の発展を推進しています。市場はTSMCの将来的な業績に楽観的で、売上高と資本支出計画も共に増加しています。
【AiBase要約:】
💰 TSMCの第3四半期の純利益は2982億台湾ドルに達すると予想され、前年同期比40%増。
📈 TSMCの顧客が新製品を投入しており、業績の予想外の伸びを後押ししている。
🌍 TSMCは新工場建設への投資を拡大しており、今後の資本支出は300億~320億ドルと予想されている。
9、Anthropic CEO:AIは人類の病気対策を支援し、5~10年以内に人間の寿命を150歳に延長可能
AnthropicのCEOであるダリオ・アモダイの論文の中で、彼は人工知能(AI)の将来の発展について大胆な予測をしています。AIのリスクに対する懸念が公表されているにもかかわらず、彼はAIの積極的な可能性が大きく、人類社会に前例のない進歩をもたらすと考えています。アモダイはAIリスクへの対処の緊急性を強調し、技術の可能性を過度に誇張することによる誤解を警告しています。彼は、生物学、健康、神経科学、精神衛生、経済、貧困、賢明な国など、様々な分野におけるAIによる変革を展望しています。
【AiBase要約:】
🔬 生物学と健康:AIは医学の進歩を加速させ、感染症の抑制、癌死亡率の低下、遺伝病の治療が可能になり、人間の寿命は150歳に倍増すると予想されている。
🧬 生物学的自由:AIは、生殖や容貌の選択など、人間に多くの生物学的特徴の制御権を与える。
🧠 神経科学と精神衛生:AIの応用により、精神疾患の理解と治療が改善され、精神衛生が向上する。
10、アップルは来年、2000ドルのVisionヘッドセットを発売する可能性
アップルは、約2000ドルの新型Visionヘッドセットを発売する計画です。より安価な素材と性能の低いプロセッサを採用しています。このデバイスにはEyeSight機能は含まれておらず、アップルの複合現実計画の一部です。アップルは、第2世代Vision Pro、スマートグラス、カメラ付きAirPods、手頃な価格のiPadのような画面と機械アーム付きのデスクトップデバイスも発売する予定です。複合現実計画は大きな成功を収めていませんが、アップルは関連製品の開発を継続しています。
【AiBase要約:】
🔍 アップルは、約2000ドルの新型Visionヘッドセットを発売する計画で、より安価な素材と性能の低いプロセッサを採用。
🚀 アップルは今後、第2世代Vision Pro、スマートグラス、カメラ付きAirPodsを発売し、複合現実分野の発展を推進する。
💡 アップルは、スマートホーム戦略の一環として、手頃な価格のiPadのような画面と機械アーム付きのデスクトップデバイスも発売する計画。
11、グーグルの米国検索広告市場シェアが50%を下回る可能性
グーグルの米国検索広告市場シェアは、2025年には50%を下回る可能性があり、新たな競合他社からの挑戦に直面しています。TikTok、アマゾン、PerplexityなどのAIスタートアップ企業が市場シェアを奪っています。アマゾンは検索広告支出を急速に増やしており、グーグルに圧力をかけています。人工知能の発展は検索広告の状況を変えつつあり、グーグルはAI検索サマリーに広告を挿入する計画です。検索広告市場は大きな変革期を迎えています。
【AiBase要約:】
📉 グーグルの検索広告市場シェアは、2025年には50%を下回る可能性があり、新たな競合他社からの挑戦に直面。
📱 TikTokとアマゾンが急速に台頭し、グーグルの市場シェアを奪っている。
🤖 グーグルはAI検索サマリーに広告を掲載する計画で、ブランドに新たな配信チャネルを提供する。
12、レノボがThinkSmart Core Gen2を発表 ビデオ会議向けに設計されたAIによる効率的な共同作業を支援!
レノボが発表したThinkSmart Core Gen2は、インテルCore Ultraプロセッサを搭載し、強力なAI処理能力により会議の効率性を向上させ、会議スペースと働き方を再定義し、スマートな共同作業体験を実現する、スマートコラボレーション分野における画期的な製品です。
【AiBase要約:】
💡 ThinkSmart Core Gen2はインテルCore Ultraプロセッサを搭載し、ニューラルプロセッシングユニットを統合することで、強力なAI処理能力と40%の省電力を実現。
💼 Microsoft Teams RoomsとZoom Roomsに対応し、スマートなフレーム選択、自動音声認識、スマートな姿勢ラベルなど、AI強化機能を提供。
🔒 高度な自動化と将来的な管理を提供し、ThinkSmart ManagerソフトウェアとThinkShieldソリューションをプリインストールすることで、包括的なセキュリティ保護を確保。