【AI日報】へようこそ!ここは、人工知能の世界を探求する皆様のための、日々のガイドです。毎日、AI分野のホットな話題を皆様にお届けし、開発者の皆様を支援し、技術トレンドの把握や革新的なAI製品の応用について理解を深めていただくお手伝いをいたします。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、DeepSeek、オープンソース化4日目に並列戦略をアップグレード:DualPipeとEPLB技術が、大規模モデルのトレーニング革命を推進

DeepSeekは、オープンソース化計画の4日目に、並列化戦略の最適化を発表しました。主な内容は、双方向パイプライン並列アルゴリズムDualPipeと動的負荷分散器EPLBです。これらの技術は、大規模言語モデルのトレーニングにおける中心的な問題を解決し、計算効率とリソース利用率を大幅に向上させることを目的としています。

image.png

【AiBase要約:】

🔄 DualPipeアルゴリズムは双方向データフローパイプラインを実現し、計算スループットを向上させます。これは、数百億から数兆パラメータ規模のモデルトレーニングに適しています。

⚖️ EPLB動的負荷分散器は、混合専門家モデルにおけるホットスポット問題を解決し、全体的な利用率を92%以上に向上させます。

📊 計算と通信のオーバーラップ最適化ツールは、時空間効率モデルを構築し、エンドツーエンドのトレーニング時間を約15%削減します。

詳細リンク:https://github.com/deepseek-ai/DualPipe

2、アリババ、2026年春の新卒採用を開始、3000以上の求人でAI関連が約50%を占める

アリババは、2026年春季インターンシップ採用を正式に開始し、3000以上の求人を公開しました。そのうち約50%が人工知能関連です。高徳では65%、阿里雲では80%を超えるなど、一部部門ではAI関連の求人の割合がさらに高くなっています。今回の春の新卒採用は複数の部門にまたがり、アリババがAI技術を重視し、特にAI分野において技術系人材を継続的に求めていることを示しています。

image.png

【AiBase要約:】

🤖 アリババは2026年春季インターンシップ採用を開始し、3000以上の求人を公開。AI関連の求人は約50%を占めます。

📈 高徳や阿里雲などの部門では、AI関連の求人の割合が著しく高く、それぞれ65%と80%に達します。

💼 アリババのAI to Cビジネスでは大規模採用が始まっており、求人の90%はAI技術と製品開発に集中しています。

3、ElevenLabs、Scribe音声テキスト変換モデルを発表、驚異的な精度、英語は96.7%に到達

ElevenLabsは最近、最新のテキスト音声変換モデルScribe v1を発表し、複数の言語で最高の精度を達成したと主張しています。このモデルは99の言語に対応し、複雑な音声環境において最大32人の異なる話者を正確に識別できます。Scribeの価格は時間あたり0.40ドルで、今後6週間は50%の割引が適用されます。image.png

【AiBase要約:】

🌟 Scribe v1は、ElevenLabsが最近発表した音声テキスト変換モデルで、複数の言語において最高の精度を達成しています。

🗣️ 99の言語に対応し、最大32人の異なる話者を識別でき、複雑な音声環境にも対応できます。

💰 現時点での価格は時間あたり0.40ドルで、今後6週間は50%割引。低遅延版も開発中です。

詳細リンク:https://elevenlabs.io/blog/meet-scribe

4、マイクロソフト、Phi-4マルチモーダルモデルとミニモデルを発表、音声・画像・テキスト処理がさらに進化

マイクロソフトは最近、Phi-4シリーズの新モデルを発表しました。Phi-4マルチモーダルモデルとPhi-4ミニモデルが含まれ、AIアプリケーションの処理能力が大幅に向上しました。Phi-4マルチモーダルモデルは、音声、画像、テキスト処理を統合し、パラメータ数は5600万に達し、複数のベンチマークテストで優れた性能を示し、特に自動音声認識と翻訳タスクで顕著な成果を上げています。Phi-4ミニモデルはテキスト処理に特化しており、パラメータ数は3800万で、同様に優れた性能を発揮しています。

image.png

【AiBase要約:】

🎤 Phi-4マルチモーダルモデルは、マイクロソフト初の音声、画像、テキスト処理を統合した統一アーキテクチャモデルで、パラメータ数は5600万に達し、多くの競合他社を凌駕しています。

📊 画像処理と数学的推論において、Phi-4マルチモーダルモデルは優れた性能を発揮し、文書や図表を効果的に理解し、光学文字認識を実行できます。

📝 Phi-4ミニモデルはテキスト処理に特化しており、パラメータ数は3800万で、テキスト推論やプログラミングなどのタスクで卓越した性能を発揮し、多くの一般的な大規模言語モデルを上回っています。

5、Hugging Face、FastRTCを発表:リアルタイム音声ビデオアプリケーション開発が驚くほど簡単になる

Hugging Faceは最近、FastRTCを発表しました。これは、リアルタイムの音声とビデオAIアプリケーションの開発プロセスを簡素化することを目的とした、オープンソースのPythonライブラリです。このライブラリは、複雑なリアルタイム通信機能を自動化することで、開発者は数行のコードで基本的なリアルタイムアプリケーションを作成できるようになり、開発時間を大幅に短縮できます。

image.png

【AiBase要約:】

🎉 Hugging Faceは、FastRTCを発表しました。これは、リアルタイムの音声とビデオAIアプリケーションの開発プロセスを簡素化することを目的としたオープンソースのPythonライブラリです。

⚡ FastRTCを使用すると、これまで数週間かかっていた作業を数行のコードで完了できるため、既存のPython開発者でも音声とビデオ機能を簡単に構築できます。

🌟 このライブラリの発表は、AI業界に大きな機会をもたらし、より自然な人間と機械のインタラクションを促進し、企業がユーザーのニーズにより迅速に対応するのに役立ちます。

詳細リンク:https://huggingface.co/fastrtc

6、FLORAノード式AIキャンバス:ストーリー分析からビジュアルコンテンツ生成までのクリエイティブワークフローを簡素化

FLORAが最近発表したノード式AIキャンバスは、クリエイティブプロフェッショナル向けに設計されたツールで、複数のAI機能を統合することでクリエイティブプロセスを簡素化することを目的としています。その中心となるのはノード式システムで、ユーザーは独立したノードを作成してさまざまなタスクを処理できます。FLORAのストーリー分析とプロンプト生成、キャラクターデザインツール、チームコラボレーション機能により、クリエイティブワークはより効率的で柔軟になります。

image.png

【AiBase要約:】

🖌️ ノード式システムにより、ユーザーはさまざまなクリエイティブタスクを個別に処理でき、作業効率が向上します。

📖 ストーリー分析とキャラクターデザインツールは、詳細なプロンプトを生成し、高度なAI画像ジェネレーターの使用を容易にします。

🤝 チームによるリアルタイムコラボレーションをサポートし、ユーザーフレンドリーなインターフェースを備えているため、技術的なバックグラウンドが浅いユーザーにも適しています。

7、間もなく公開?OpenAI GPT-4.5がAndroidアプリのベータ版に登場

OpenAIは、次世代言語モデルGPT-4.5のプレビュー版の準備を進めており、大きな注目を集めています。このモデルは、ChatGPTのAndroidアプリで実験的なオプションとして導入され、当初はProサブスクリプションユーザーのみに提供されます。具体的な機能はまだ不明ですが、GPT-4.5はChatGPTの無料版の後継となることが期待されており、機能面ではより高い通話制限が設けられる可能性があります。

image.png

【AiBase要約:】

🚀 GPT-4.5が間もなく公開。当初はProサブスクリプションユーザー向け。

🔍 ChatGPTのAndroidアプリで実験的なオプションとして登場。具体的な機能はまだ不明。

💰 Proサブスクリプション料金は月額200ドルで、より多くの機能と制限の少ない利用が可能です。

8、バイトダンスのAIスマートアシスタントDoubaoアプリが「写真を動かす」機能を発表

バイトダンス傘下のDoubaoアプリは、「写真を動かす」機能を発表しました。これは、静止画の古い写真を動的なビデオに変換することを目的としています。ユーザーは写真と動作の説明をアップロードするだけで、簡単にこの変換を行うことができます。この機能は、ユーザーの思い出に鮮やかな色彩を加えるだけでなく、貴重な瞬間にも新たな命を吹き込み、テクノロジーと感情の融合を示しています。

image.png

【AiBase要約:】

📸 この機能により、ユーザーは静止画の古い写真を生き生きとした動的なビデオに変換でき、古い写真の動画化ニーズに対応します。

💡 操作は簡単で、ユーザーは写真と写真の中の動作の説明をアップロードするだけで、動的な効果を生成できます。

❤️ Doubaoアプリはこの機能を通じて、ユーザーが過去と時空を超えた対話を行い、美しい瞬間を残せることを願っています。

9、bilibiliのテキスト音声変換モデルIndexTTS:ピンインによる漢字の発音修正、正確なポーズ制御に対応

bilibiliが発表したIndexTTSモデルは、XTTSとTortoiseをベースにしたGPTスタイルのテキスト音声変換システムで、独自のピンインによる漢字の発音修正機能と正確なポーズ制御機能を備えています。数万時間のデータトレーニングを経て、IndexTTSは単語エラー率と音質評価において優れた性能を発揮し、多くの一般的なTTSシステムを上回り、業界をリードする性能を示しています。image.png

【AiBase要約:】

🌟 IndexTTSは、XTTSとTortoiseをベースにしたGPTスタイルのTTSモデルで、漢字の発音を修正し、ポーズを制御できます。

📊 数万時間のトレーニングを経て、多くの既存の一般的なTTSシステムを上回り、業界をリードする性能を示しています。

🔍 IndexTTSは複数の評価において優れた性能を発揮し、単語エラー率と音質は他のモデルを上回っており、その強力な優位性を示しています。

詳細リンク:https://github.com/index-tts/index-tts

10、快手Kwai AI、1月の世界的な月間アクティブユーザー数が前月比113%増加

最新のデータによると、快手Kwai AIの1月の世界的な月間アクティブユーザー数は、前月比113%増加しました。UBSは、オンラインエンターテイメントと教育がAIアプリケーションの中核分野であり、快手は独自開発のKwai AIにより、世界のビデオ生成モデルにおいて先頭を走っていると指摘しています。最近、快手は複数画像参照機能を発表し、ユーザーが複数の参照画像をアップロードできるようにすることで、ユーザーエクスペリエンスと創作の自由度をさらに向上させました。

image.png

【AiBase要約:】

📊 快手Kwai AIの1月の世界的な月間アクティブユーザー数は113%増加しました。

🎓 オンラインエンターテイメントと教育はAI導入の重要なシナリオです。

🖼️ Kwai AIは新たに複数画像参照機能を搭載し、ユーザーは複数の参照画像をアップロードできます。

11、大学の先生「AIで書いた作文は全て0点」

人工知能技術の急速な発展に伴い、AIツールは大学生がレポートや論文を作成する際の助けとなっています。しかし、一部の大学の先生は、AIで生成されたコンテンツに依存する学生の中に、学術不正行為が見られると指摘しており、そのため学校は、AIで生成された作文を提出した学生には0点とするという方針を打ち出しました。この措置は、学術的な誠実さを強調し、技術への過度な依存を抑制することを目的としています。

image.png

【AiBase要約:】

📚 一部の大学の先生は、AIで生成されたコンテンツに依存する学生の中に、学術不正行為が見られると指摘しています。

🚫 学校は、AIで生成された作文を提出した学生には0点とするという方針を打ち出しました。

🧠 これに対するネット上の反応はさまざまで、賛成と懸念が入り混じり、学術的な誠実さの重要性が強調されています。

12、19歳の女子棋士がAI不正行為で中国囲碁協会から厳罰、8年間の出場停止処分

中国囲碁協会は、全国囲碁選手権で不正行為を行ったプロ棋士の秦思玥(チン・スーユエ)に対し、厳格な処分を下し、プロ棋士の段位を取り消し、8年間の出場停止処分を科しました。秦思玥は試合中に携帯電話を持ち込み、AIプログラムを使って不正行為を行い、その行為は重大であり、尋問の際に事実を隠蔽しました。この処分は、囲碁業界の公平性と公正性を維持し、棋士に競技規則の遵守を促し、不正行為を根絶することを目的としています。